“那次太惊险了!” 回忆起1个月前大连暴风雪造成的停电事故,创新安泰人寿保险公司资讯部经理孙建光至今仍有些后怕。
3月4日,正值中国传统的元宵佳节,一场百年难遇的暴风雪“袭击”了东北三省,冲淡了节日气氛。大连是重灾区之一,当天傍晚在大风影响下,大连电网与东北电网完全断开,全城陆续开始停电、停水、停气、停暖。晚上8点,孙建光接到电话,被告知公司所在大厦的供电开始不正常。听到这个消息,孙建光感到有些紧张,创新安泰是国内知名把总部设在东北的保险公司,这里不仅存放着大量客户信息数据,24小时的客户服务中心也建在这里,一旦发生意外,后果将十分严重。
经过短暂的商议,创新安泰迅速启动了内部灾备预案:所有非24小时运行的系统暂时停止工作,包括邮件系统及非紧急的办公系统,UPS优先保证24小时业务系统正常运行,包括呼叫中心、查询系统、电话系统,这些系统1分钟都不能停!同时,他们通知自己的灾备外包商待命,随时准备切换系统。好在艰难地捱过近两小时后,大厦供电恢复正常,所有信息系统开始恢复工作。
“如果停电时间再稍长点,UPS就顶不住了,灾备预案就必须启动。”回想起当时的情形,孙建光说,“那时,我虽然紧张但并不慌乱,因为我们事先制定了多个预备方案,更严重的灾难我们都考虑过。”虽然情况紧急,但一切都还在控制之中。
小概率 高风险
提起灾难,人们可能立刻联想到的是地震、洪水、暴风雪等自然灾害。对企业而言,它的概念则更加广泛。2005年4月,国务院信息化办公室出台的《重要信息系统灾难恢复规划指南》对“灾难”进行了定义——“由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件”。
人为原因所造成的灾难,对企业信息系统的破坏程度绝对不亚于自然灾难,“911”事件曾造成1200家组织受灾,其中一半以上的企业因为数据损毁、丢失,导致业务无法恢复,以致于宣布倒闭。尽管国内还没出现过这样极端的例子,但因为信息系统故障、人为操作失误造成的严重危害,对企业来说也是一场“灾难”。去年4月20日,银联的信息系统发生故障,导致北京、上海等多个大城市的POS机无法刷卡、不能跨行取钱,影响众多商户的正常经营。类似事故近几年还发生过好几起——有银行系统停机、铁路售票系统瘫痪等,着实让受害企业及同行开始重视灾难恢复的问题。
近几年,国内企业为了实现资源共享、加强对分支机构的监管和经营风险的管控,将数据越来越集中于总部。然而伴随“大集中”而来的是风险的集中。对于企业而言,一旦集中的数据遭到破坏,打击将会是致命的。美国得克萨斯州大学的调查显示,只有6%的企业可以在数据完全丢失后生存下来;43%的公司会彻底关门;51%的公司将会在2年内消失。尽管灾难是小概率事件,但它一旦发生就是高风险事件,因此越来越多的企业开始把防范灾难作为公司治理的重要内容,灾难备份建设也被更多的企业提上日程。
“做灾备就像买保险,永远用不上是最好的。”深圳发展银行首席信息官孙涤说。深发展银行是国内第一个通过外包建立灾备系统的银行。“2001年,即使自建灾备系统的银行也寥寥无几。”那时,深圳发展刚刚启动新一代综合业务系统,以数据集中存放、集中处理取代了原先的多分区多中心、数据分散式存储和处理的方式,新系统对稳定运行有着极高要求,所以建立一套完善的灾备系统十分必要。2001年,深发展与灾备外包商GDS公司签订了上亿元的外包服务合同,将灾备体系陆续建立起来。尽管这一系统到现在为止,还没派上过用场,但对孙涤而言,它的建立如同让自己吃下一颗“定心丸”——完善的灾备机制极大地分担了数据集中所带来的风险。
当年,深圳发展银行着手建立灾备体系时,并没有意识到几年后灾备系统会成为体现银行竞争力的一个基本要素。现在,有无完善的灾备系统已经成为衡量国内银行风险防范的一个关键点。中国工商银行在其招股说明书中,特别强调了其北京数据中心始终为上海数据中心提供备份数据,这些数据将在发生灾难及主要系统发生故障时使用;同时,他们还建立了替代的通信系统。据悉,工行现已建成了国际金融业规模最大的异地灾难备份和恢复系统,一旦出现意外 ,数据丢失可控制在2分钟之内,业务能在2小时之内全面恢复。
创新安泰也是国内较早建立灾备体系的企业之一。它是荷兰国际集团(ING)与北京创新集团出资建立的一家人寿保险公司。成立不久,在股东方的要求下,它就开始创建灾难恢复计划。今年3月的停电事故对它而言,也是一次小小的检验。创新安泰将办公地点选在大连市中心的一个五星级写字楼里,按说发生停电事故的概率非常小,但是百年未遇的暴风雪还是导致了停电。这次从灾备角度来说,他们并未真正启动灾备系统,但是由于事先已有完善的灾备计划,一切应急流程都有条不紊地进行着。“作为保险公司,我们要以稳健的经营作风打动客户,所以在信息系统安全性上,容不得有半点儿差错。”孙建光说。
2004年开始,我国的银行、保险、证券、税务、海关、民航、铁路、电力等8大行业被国家圈定为必须建立灾难备份的重点行业。2005年,国信办出台《重要信息系统灾难恢复指南》,为各行业,尤其是重点行业的灾备建设提供了指引。今年,灾备建设将作为国家信息安全标准在全国发布。
如今,灾备系统建设已不仅是银行、保险、政府等重点行业的要务,随着其他行业组织的信息系统不断完善,大量组织对信息系统的依赖度不断增强。去年12月26日,海底光缆中断事件, 除了对不少互联网用户造成严重影响外,还对一些通过远程网络使用国外ERP系统的外资企业造成了直接影响。
灾备建设并非杞人忧天,它是企业信息安全保障的最后一道防线。专家建议,一个对信息数据依赖度大的企业,至少应该准备一份灾难恢复计划,“因为你不知道公司的磁盘哪天就会突然坏掉”。
没有终点
灾难备份,顾名思义就是对可能被灾难破坏的数据、数据处理系统、网络系统、基础设施及运行管理能力备份的过程。不过,灾难备份并非灾难恢复的全部,它更重要的内涵是恢复组织的业务。GDS总裁黄伟指出,在他接触过的建立灾备措施的企业中,不少企业会陷入两种误区:“一是重复建设;二是建设无效”。属于后者的企业并不是因为建立的灾备系统无法使用,而是缺乏维护和相应的业务持续性规划,使得巨资打造的灾备系统变成又一个信息孤岛。
“如果没有灾备中心,出了问题还可以将责任分担;如果有了灾备系统却启动不了,IT部门的压力会大很多。”孙建光说。这几年,创新安泰逐步建立了一套完整的业务延续性计划(BCP,Business Continuity Plan)。其中,IT灾难恢复计划是BCP计划的重要部分。创新安泰不仅对日常IT的工作规范进行了严格规定,如软件变更和安装尽可能保持一致,将风险防范落实到责任人、理顺流程,以便一旦出现灾难大家各司其职,确保灾备方案能够迅速得以执行。
“未经测试的灾难恢复计划是无效的!”从灾备系统建设至今,创新安泰进行过两次规模较大的演习:一次是假定总公司的机房遭到破坏,另外一次是假定分公司遭受疫情危害而无法办公,在这两种假设场景下进行业务快速恢复。在演练中,他们将不同业务按关键度,分为12小时、24小时、48小时乃至72小时内恢复的等级,制定了相应的演习计划,由所有内部用户、IT人员及BCP小组共同执行完成。这不仅是对灾备系统的检验,同时也是对全体员工的现场培训。至今,创新安泰已建立了三四种灾难恢复预案,以应对各种可能出现的灾难。
现在,创新安泰的电脑屏保甚至都会不断出现信息风险管理内容,几乎所有员工都知道在突发状况时,应如何应对。为此,他们还编制了详细的“灾难恢复流程手册”,假定在最极端的情况下,一个专业人员都没有,非专业人员也可以根据手册操作流程说明,恢复信息系统。
建立BCP是一个长期而复杂的过程,且需要随着企业的业务变化而不断演进。“IT部门应该建立一张业务与系统的关联影响图。”中国网通辽宁分公司企业信息化部经理官涛用这张图拟定了IT灾备预案。
“每个用户都有它关注的几项功能,每项任务的几个节点连接起来就是我的监控点。通过这些点来制订我们的维护和执行规程。”官涛强调,企业灾备应以预防为主。为此,他会定期请外部人员对信息系统进行“健康检查”;之后,在此基础上建立应急预案,“一旦系统出现故障,恢复流程会非常清晰,故障节点也能很快被排除,从而在最短时间内恢复业务运转”。
CIO不要以为灾备建设像正常IT项目一样,是一笔一次性投入,灾备体系需要不断维护、不断加强,否则就会出现“建设无效”的现象。深圳发展银行尽管已经花巨资建立了灾备体系,但它每年还会在灾备上投入上千万元,以进行灾备演练等工作。
不过,灾备投入并非是“无底洞”,灾备系统也不会被闲置起来。今年4月,创新安泰在北京分公司的语音灾备系统正式完成。原本出于提高工作效率、节约成本,创新安泰已经通过VoIP将全国各分公司与总部的电话连接在一起。现在,北京建立了语音灾备中心,其日常可以作为公司呼叫中心的一部分,一旦总公司系统出现问题,它会立即将总部呼叫中心和办公电话业务“接管”过来,以保证呼叫中心和各分公司的正常运行。(IT经理世界)