信息化 频道

“起死回生”的管理

编者按:人类是种奇怪的动物,往往很少能够从第三方的教训中吸取自己的经验。

  台风“麦莎”72小时狂袭中国百余城市,瞬间改变了千万人的生活;从美国“9.11”事件、日本神户大地震到东南亚海啸;从2000年9月中国银行收付系统突然死机到去年北京首都机场系统瘫痪误机6,000人;再到花旗银行最近丢失390万客户信息的“数据门事件”,直至6月9日北京恒泰证券股票交易系统出现故障迫使股民望“红”兴叹????

  在这不确定的信息化年代,啸聚而来的“天灾人祸”不仅给政府、商业机构甚至个人直接造成巨大生命财产损失,也对信息化时代各类组织机构赖以生存和运转的IT系统与业务连续性管理(Business Continuity Management,简称“BCM”)带来毁灭性打击。

  5月底,国务院信息工作办公室网络与信息安全组组长王渝次在中国首届灾难恢复行业高层论坛上指出:“在信息网络化时代,没有灾难备份与业务恢复计划的企业,在遭遇灾难事件时常常不堪一击,甚至可能随时崩溃。”

脆弱的系统

  此次会议得到了银行、保险、制造等数十行业200多名IT主管、业界灾难备份专家及政府主管的积极响应。大家齐聚广东南海的目的,就是共商一个“小概率”但又“高风险”的热点问题:企业重要信息系统在遭受各类天灾人祸打击之后,如何迅速恢复并维持业务的连续性管理能力。

  与会的企业高管们非常清楚,王渝次的话并不是危言耸听。根据顾能公司(Gartner)的调查数据,在经历大型灾难事件而导致系统停运的公司中,有五分之二左右的公司再也没有恢复运营,剩下的公司中也有接近三分之一在两年内破产了。

  不过,“9.11”不但没能让摩根斯坦利公司(Morganstanley)消失,就是业务正常运营的恢复,也只用了短短的2天时间。其中的秘诀是,该公司设于美国新泽西州的完整业务灾难备份以及恢复系统,在关键时刻发挥了作用。

  相比较之下,我国的金融机构防灾抗难意识及能力却极其脆弱,有时仅以一人之力就可以彻底破坏整个系统。2000年8月,发生了一起令中国银行刻骨铭心的事件:中国银行利川支行一名营业部主任对银行信息系统进行毁灭性破坏后,携款潜逃,导致银行数据丢失,业务陷入瘫痪状态。

  应对各种灾难与紧急事件,企业需要提前推行业务连续性管理。

  不过需要澄清的是,恢复并维持业务的连续性管理中,灾难备份(Backup)与恢复(Recovery)是两个完全不同的概念。进行灾难备份的企业,在遭遇灾难后,未必能够迅速恢复,尽管前者对IT基础设施、信息技术与环境同样具有较高的要求,但企业要想在遭受灾难打击之后迅速“起死回生”,包括人员、流程、组织等非IT的业务连续管理计划、整体预案以及应急响应系统才是关键中的关键。

  而国内相当数量的企业和机构,重视系统的备份,却忽视了尤为关键的灾难之后业务的恢复能力建设。

  “BCM本质上是一个管理范畴内的问题。”据国内第一位也是目前唯一获得国际CBCP认证的灾难备份专家、万国数据服务有限公司(称“GDS公司”)副总裁汪淇介绍,国际灾难备份与恢复行业已形成相当完备的BCM(或称之为“BCP”)理论体系和方法论。

化解集中的风险

  深圳发展银行是国内首家实现了生产中心(业务系统)数据逻辑大集中和与灾难备份及业务持续管理系统同步建设的企业。

  深圳发展银行科技部总经理刘政权坦言,深圳发展银行之所以领先同行实施BCM系统,一方面是因为把脉到BCM系统正在逐步成为国际金融通用规则的趋势,譬如在英国,业务持续管理规划已经成为企业上市的一个必要条件;另一方面是因为银行业数据大集中下潜藏的巨大风险。
  
  数据集中也意味着风险的集中。在深圳发展银行全行业务依赖于深圳一地单点处理的情况下,一旦深圳的电脑数据中心发生灾难,其全国范围中的全部分支机构几乎所有业务都将瘫痪。这将造成巨大的经济损失,且不说客户流失、声誉受损,甚至还有可能会因此引起社会的不安定。

  通过对业务风险与冲击影响的详细评估,深圳发展银行选用了复合等级的灾难备份方案—对核心业务系统采用“零数据丢失”的最高等级数据热备份方案;而对于一些辅助业务则采用了比较经济的第二级备份方案,在灾难备份中心保留最新的磁盘、磁带,并且定期进行更换。

  该系统自2002年5月投入运行以来,包括数据、数据处理能力、网络在内的整个核心业务处理系统已经过多次切换复制,重新恢复业务流程演习,结果令人振奋。刘政权说:“一旦遭遇灾难冲击,只要1个小时,我们的备份系统就可以顺利切换到灾备中心的系统开展正常作业。”

业务持续性管理

  企业通过灾难备份中心构建BCM系统,不仅着眼于IT系统的备份与恢复,更重要的是包括隐含于其中的、涉及企业整体生命周期的一种业务连续性管理策略与应急响应计划。

  在深圳发展银行灾备中心的建设过程中,历经启动组织管理,风险分析、业务影响分析,灾难备份策略,业务连续性计划的开发、实施和维护,公共关系的协调,公共管理机构的沟通6级BCM步骤与环节,这样保证了一旦遭遇灾难,系统快速切换和回退的能力。如此不仅能够帮助企业在遭遇危机时迅速恢复IT基础架构,同时还包括关键性业务的持续、迅速恢复并履行商业契约。

  “业务停顿的后果是可怕的。”拥有10多年国内外银行和基金操作经验的海富通基金管理有限公司(下称“海富通基金公司”)首席执行官(CEO)田仁灿对此也深有感触。

  这也是为什么在中国香港,如果没有灾难备份与BCM系统的金融机构都不能获得执业资格。“我们基金业倡导全年24小时不间断服务,业务处理系统决不允许中断,否则便意味着系统业务的停顿、收益的损失和客户的流失。”田仁灿说道。

  证券业业务每停顿1小时,平均损失将达到650万美元;ATM系统中断1小时,平均损失为1.45万美元;而行业系统中断,平均每小时高达8.4万美元。这是市场调研公司战略研究公司(Strategic Rssearch Corp.)的研究报告所显示的数据。

  不过,上马BCM系统后,海富通基金公司卸去了一个包袱。在过去,假设海富通基金公司总部所在的大厦起火,员工无法进入办公大楼办公,业务就面临停顿危机。运行BCM系统后,遇到短时间系统故障,分析师、操盘手等可以通过位于上海金茂大厦应急中心的6个终端进行业务操作;假如总部大厦业务中断超过24小时,业务人员可以马上飞到深圳灾难备份中心,启动备份和业务恢复系统。

  灾难备份系统不可逆的单向备份模式,也保证了BCM系统中核心业务数据等的安全。海关总署信息中心副主任何瑜参说过:“海关的数据不怕公开,怕的是被篡改,一旦数据出现问题,将扰乱整个国家的经济秩序。”同时,在外包的BCM中心,日常维护人员和非授权人员“不接触用户数据”这一原则的存在,则保证了关键数据和业务系统的安全。

0
相关文章