信息化 频道

“狼”来了,如何制定信息系统灾难恢复计划?

【IT168 信息化】

    如果有什么事情会发生,这个事情又不是你所期望发生的,那么,这个事情往往就会发生。这话听起来有点绕口,换个更容易理解的说法——“狼早晚会来”。这个“狼”,在IT领域就是信息系统的灾难事故(事件)。这就引出一个有趣的话题——在享受信息技术的便利与收益之时,你得做好被狼咬上一口,迅速出手打狼的准备。

    又有多少朋友作了这个准备呢?以笔者所在行业内看,相当比例的单位迄未想到这个问题,有些单位制定了一些粗线条的制度,诸如“某某应急预案”,也是锁在个别领导或IT主管的抽屉里。其他行业又当如何?不及前,一家知名信息安全公司做了一个调查,相当比例的企业没有建立自己的信息系统灾难恢复计划,在这些企业中,44%的单位经历过一次重大故障或灾难,更有26%的企业经历过两次以上,11%的单位经历三以上,那些制定了信息系统灾难恢复计划的单位,也有大部徒有其表。由此看来,这个打狼的话题不仅有趣,还透着几分沉重。

是考虑制定一个灾难恢复计划的时候了

    此前,笔者曾撰文探讨信息系统安全策略问题。如果说此前关注的焦点是如何筑牢篱笆,防止羊被狼叼去。那么,今天,当我们认识到篱笆扎得再密集也有疏漏,狼早晚得坏我们的事,目睹了如此多的信息系统灾难,亲历了一次又一次重大的自然灾难与信息系统灾难,品尝到那份损失、慌乱与痛苦,问题的焦点就自然而然地转到——如何亡羊补牢、减少损失,即如何制定一个灾难恢复计划并有效地实施它,使我们在灾难来临之际,稳住阵脚,以合理的对策及时止损,尽早从灾难中缓过神来。
 

灾难恢复计划涉及内容

1、影响分析

    我们很自然地想到信息系统灾难对业务的影响。实际上,灾难的影响远不止于此。它还包括对相关群体与个体的心理、情绪与利益的影响,包括对企事业单位的公共形象的影响。对那些涉及国计民生的公共安全、政府部门及其他关键领域的信息系统,还要考虑其对经济社会安全诸方面的影响。

    这次波及中国乳品全行业的食品安全危机暴发后,三鹿乳品集团公司网站系统一度被黑客攻破,其主页被人篡改。对局外人而言,这也许是个花絮,但是,对此前还积极筹备上市融资、如今陷入严重危机的这家企业而言,这个信息系统的灾难,无异于雪上加霜,企业形象扫地,成了人们痛恨与嘲弄的对象。

    美国国防部的官员对此当有更切身的体会。其信息系统被来自世界各地的好事者多次攻破,敏感信息屡被窃取,不仅影响了其正常运转,也使美国国防部多次蒙羞。甚至有人质疑,以这样的官僚机构,连自身都难保,怎能保障美国公民的安全?

2、谁最关键

    通过影响分析,可以确定信息系统灾难对业务及企事业单位的影响程度,可以帮助我们分出轻重缓急,确定那些需要优先恢复与保障的服务与项目,也可以确定从哪里着手,减轻灾难损失。

3、数据保全

    数据是维系信息系统运行的基本要素,也是招致信息系统灾难的重要因素。数据保全,包括借助合理的备份策略,使数据在遭受攻击或破坏时,能够最大限度、尽快恢复,还包括隔离或阻止攻击及非法调用,制止数据滥用,以维系信息系统运转,维护当事人、企事业单位甚至国家的权益。

4、恢复运行

    针对灾难类别,研究形成的应对方法和处置步骤,使信息系统尽快恢复运行。恢复运行不是灾难恢复的唯一目标,但是,它是灾难恢复的重要目标之一,以此相关的灾难恢复方法和步骤是灾难恢复计划的一项重点内容。

5、灾难评估

    灾难评估与影响分析不同。影响分析带有设想的成分,灾难评估则是针对一起具体的灾难,从不同方面,对其负面结果进行定性或定量的评估。其主要目的,一是有利于恢复阶段采取正确的措施。二是确定损失,做好善后工作。三是分析导致灾难的原因,查摆堵塞漏洞,落实奖惩,以利再战。

6、相关人员

    谈信息系统灾难恢复计划,我们不难想到负责技术的人员。其实,在这个计划里,还涉及信息系统相关的各类业务人员及管理层,甚至包括企业的客户以及普通公民。凡是与信息系统存在关联的部门、人士,都在灾难恢复计划考虑之列。系统正常维护期及出现灾难后,要知道该找谁,不同部门、岗位的人员该怎样站位,结成一个共同应对灾难的集体,分兵把守,将灾难负面影响降至最低,使信息系统尽快恢复运行,各项业务尽快步入正轨。
 

前期准备

1、思想准备----这个听起来有点像官样文章,其实不然。时至今日,有几家企事业单位建立起有效的灾难恢复计划?又有几家进行了像样的培训与演练?不断完善与发展这个计划的恐怕就更少了。上述问题,表面看是单纯的技术问题,实际上是企事业单位领导与相关人员的思想认识问题。一位饱受指责的CIO对笔者诉苦:“相关建议我都懒得提了,可是,根本就没人把它当回事!”事前不理会,事后干着急。思想认识不到位的苦头,我们不应该再吃了。

2、知识储备----信息系统灾难恢复计划说起来话长,实际上,对我们许多朋友而言,这还是一个新课题。企事业单位领导,负责信息化工作的朋友不妨主动学习了解相关知识,尤其需要关注与本行业相近的企事业单位的相关经验与教训。知识储备到位了,才知道如何研究制定和实施这一计划,达到预期效果。

3、多方论证----信息系统灾难恢复计划不是一两个人闭门造车的结果。恰恰相反,因其关乎各相关方的业务与利益,又是在一个非常时期,需要协调各方甚至不同个体步调才能共渡难关的指南性方案,所以,应该召集有关人士,共同参与研讨、制定。

4、制度准备----灾难恢复计划应与相关制度相呼应。这样,才能在灾难面前,要求一致,步调一致。否则,再好的灾难恢复计划,也会在更富刚性的制度面前失灵。

5、宣传普及----应让有关人员了解该计划,知道自己的责任与义务,知道在系统运行期间如何规范性使用系统开展工作,特别是在遇到灾难后,如何自我保全、阻断损失、开展协作。

6、实战演习----要让全员全面、准确地理解该计划,再也没有比演练更有效的办法了。通过演习,不仅可以帮助有关人员建立感性认识,还可望催生理性思考,增强角色感、现场感,建立执行计划的正确的习惯动作。演习还是不断完善计划的重要一环,是计划准备中当之无愧的重头戏。所以,不仅要重视演习,坚持组织开展一定密度的演习,还要重视演习的归纳总结,形成有价值的演习成果,包括对计划的优化调整。
 

灾难恢复计划实施

    广义上讲,灾难恢复计划的实施包括日常维护、灾难恢复、恢复后三个阶段。在日常工作中,企事业单位要按照该计划与分工,认真、及时地开展系统维护与相关记录工作,包括硬件巡检、数据备份、为软件打补丁、病毒查杀、资料收集与管理,等等。对出现故障的软硬件,要及时修复。对关键设备,要规划、装备必要的冗余设备,以备不时之需。

    当灾难发生时,要按照灾难恢复计划,迅速联络相关人员到位,各部门人员按照灾难类别,及时、有序地进入响应程序。有时候,灾难与计划中的类别不尽相同,这时候,现场工作人员特别是IT人员应冷静分析,找到计划中相近的灾难处置办法与步骤,及时予以调整,积极加以应对。要有意识地记载灾难处置办法与步骤,作为重要资料备查。

    灾难处置结束后,要安排一定时间,对系统运行进行密切监测,按计划,有序恢复、实施各项业务切换。系统及各部进入常态后,要不失时机地进行灾难评估与灾难恢复工作总结,查明导致灾难的原因与责任,落实奖惩,堵塞漏洞,完善计划。

灾难恢复计划也要升级

    道高一尺,魔高一丈。再缜密的灾难恢复计划,也有“不顶事儿”的时候。所以,有必要追踪信息系统灾难及其恢复计划发展,及时补充相关内容,优化相关办法与步骤。实践证明,绝大多数企事业单位的灾难恢复计划,在制定与实施之初是不完备的,需要在实践中,借助持续不断的升级,日臻完善。

    进行演练和灾难恢复时,发现恢复计划有不合理处,应考虑升级;当追踪发现其他企事业单位相应计划有可资借鉴处时,应考虑升级;当本单位有新的灾难恢复要求时,需要根据该要求予以升级;当信息系统升级或添置新的信息系统的时候,应考虑升级;当新的灾难恢复策略与技术出现时,可考虑升级。

    灾难恢复计划升级后,还要及时安排演练进行验证,开展培训,使各方周知并掌握相关要领,必要时,还需要对相关制度做出相应调整。

    随着我国信息化的发展,国内信息安全市场日益扩大,在我们身边相继出现了一些专门从事灾难恢复服务、IT服务连续性管理的企业。这是我们从事灾难恢复工作的一个宝贵的资源。有条件的企事业单位,可考虑以合理的资金投放,购买相关服务。财力有限的单位,也不妨考虑积极与其接触,了解相关策略与知识,为更好地组织开展减灾防灾工作提供借鉴。
 

0
相关文章