【IT168 信息化】信息化改变了企业,计算机逐渐必不可缺。以前人们用手工来记账、制造产品,如今都已经被计算机所替代。计算机可以用几倍、几十倍的速度完成这些工作,并且错误率极低。商业模式改变了。很显然,一旦计算机出现故障,我们不可能再回到手工时代,即使企业能提供足够的人力,也无法保证这些人还拥有相应的业务技能。于是灾难恢复行业应运而生。今天,灾难恢复(Disaster Recovery)一词一般意味着技术环境的恢复。
对灾难恢复的认知需要时间,很多行业直到美国“9.11”事件之后才认识到数据中心对企业的重要性。拥有数据中心的唯一理由是为了企业的业务运行——数据中心的运营人员有时候会忘记了这一点。如果不是为了那些给企业赢利的业务,我们就不会需要数据中心了。
企业面临的风险
为了说服领导层同意建立一套切实可行的业务连续计划,你需要去帮助他们了解如果没有这一计划,企业将面临怎样的风险,以及风险发生时企业将会蒙受怎样的损失。通常,企业所面临的风险包括财务(企业将损失多少钱)、声誉(企业将面临顾客和股东的责难),以及合规性(监管机构罚款及诉讼)。
财务风险通常可以被量化,并可以用来帮助企业决定应该在恢复计划上投入多少资金。计算财务风险的一个方法是使用公式P×M=C。P指的是损害可能性,即损害事件发生的可能性;M指的是损害程度,即可能对企业财务的损害程度;C代表防止灾难发生的平均成本,即实施事件防御措施所需的费用。
名誉风险相对来说难以量化,但是很明显无论身处哪一行业你都会有许多竞争对手。如果今天你不能满足客户的需求,明天他们很可能就投入另一家企业的怀抱。对灾难的管理不当往往也会对企业的股价带来消极的影响。你可以向管理层展示安然、安达信等案例,同时问问他们的想法。有效的危机与业务连续管理很可能是一个从灾难中恢复的企业和一个在灾难中消失的企业之间的唯一区别。
合规性风险已经被企业所处行业的监管机构明确定义。无论你身处哪个行业,有一条法则被广泛地应用,即对待企业事务要跟对待个人事务那样投入同样的精力。
如何建立?
当你获得管理层的许可之后,要建立一个企业范围的业务连续计划,第一步就是组建你的团队。要建立一个可行有效的计划,你需要企业每个部门中的至少一位人员的协助。为使计划顺利制定,这些人将被分配完成一系列任务。下面这个表格列出了每一个参与规划的人员需要完成的任务,以及每项任务完成的频率。根据每个企业各自的特点,这些任务可能会有所不同。
BCP任务 | 说明 | 执行频率 |
参与管理 | Ø 委派BCP Ø 设立BCP目标 Ø 向管理层提交BCP | 持续进行 |
参与BCP | Ø 参加每月BCP会议 Ø 参加培训会议 Ø 随时更新BCP任务列表 | 持续进行 |
文档记录核心员工手机号码 | Ø 确认需要联系的员工 Ø 维护事件管理列表 | 持续进行 |
发布紧急通知名单(ENL) | Ø 发布并分发紧急通知名单给关键人员 | 每季度一次 |
电话会议流程 | Ø 建立和分发紧急电话会议号码以及接入方法给关键人员 | 每年一次 |
明确业务功能及其关键性 | Ø 明确企业的所有功能并为这些功能决定恢复时间框架 | 每年两次 |
备用场地资源需求定义 | Ø 执行功能所需的文件系统和人员 | 每年两次 |
执行技术检查 | Ø 编目和评估业务功能所使用的软硬件,制定技术恢复时间框架 | 每年一次 |
记录相互依赖性 | Ø 明确所有内外部依赖 | 每年一次 |
发布管理层签字的计划原件 | Ø 发布并分发恢复计划 Ø 包括失去场地的计划和失去关键应用的计划 | 每年一次 |
计划并执行紧急联系测试 | Ø 执行关键员工的联系测试 Ø 记录任务安排 | 每年两次 |
计划和执行紧急演练 | Ø 执行业务中断恢复桌面演练 Ø 后续任务安排 | 每年一次 |
计划和执行紧急测试系统 | Ø 参与系统演练 Ø 记录任务安排 | 每年一次 |
计划和执行宣传计划 | Ø 发布和分发关于恢复各方面的教育性资料,特别是每个人在紧急情况下的角色 Ø 测试员工知识 | 每半年 |
业务连续规划人员首先应该明确,当发生了影响业务运行的灾难时,他们需要联系哪些部门的人,并在此基础上建立一个紧急通知名单(ENL)。
下一步要做的是确保恢复业务运行所需的所有备份都被存储在一个安全的异地场所,该场所必须不会受同一事件的影响,并且可以在事件发生后随时启用。这些备份既包括传统备份比如服务器备份和纸质文档,也包括非传统备份比如流程手册、表格和信头等。
一旦团队组建完毕,相关备份也已经到位,下一个重要的步骤就是进行业务影响分析(BIA)。业务影响分析的作用在于帮助企业决定哪些是需要恢复的,以及需要在多长时间内恢复。这一步骤中不要使用“关键的”或者“重要的”这样的词汇,因为没有人会认为自己是“不重要的”,可以使用的词汇是“时间紧迫的”。
一般来说,企业不会雇佣员工去做没有用的事情。每一项业务都有相应的目标,但是在有限的时间和资源情况下,其中一些相对来说时间更为紧迫。你可以这样想,如果银行由于发生火灾而停止了业务,作为一个顾客,你不会去关注他们什么时候恢复市场营销计划或恢复他们的总帐系统,但如果在几个星期内都无法存取款你将会非常沮丧。
企业应该用同样的方式来考虑每一个业务功能。在不发生重大财务损失、客户流失或监管处罚的前提下,我们可以在多长时间内不考虑恢复某一业务功能?
在恢复优先权的基础上对所有业务功能进行分类,之后规划团队需要明确执行这些恢复所必须的资源,包括应用系统、最少的员工需求、电话、座席、内外部支持等等,同时按照业务支持的需要来细分每个应用系统的恢复优先权。
业务影响分析完成后的下一个步骤是为各个业务功能确定不同的恢复策略,这完全取决于功能的恢复时间框架。策略可以包括以下的一种或几种:
? 自我服务——一个业务单元的功能可以转移到所在地的另一个有可用设备的单元。
? 内部管理——培训室、餐厅、会议室等,应该包括能够支持业务功能的所有设备。
? 互补协议——其他业务单元能够接管那些被灾难影响的单元,此时可以临时停止接管单元中的非关键业务。
? 专用备用场地——企业用来进行关键功能恢复的场地。
? 外部支持——外部可以提供全程灾难恢复服务的专业公司。
? 无需安排——对于一些低优先权的业务功能不需要规划的很详细以节约成本,此类业务的恢复规划只要有对功能的描述,明确可接受的最大恢复时间,以及恢复资源清单即可。
一旦恢复策略明确并开始在每个部门中执行,下一步就是将业务连续计划文档化,包括激活流程、恢复策略、以及恢复结果的文档管理、人力资源问题的处理、恢复费用的支付、与内外股东的沟通等,并明确每一个团队中每一个成员的详细行动计划。最后,计划需要分发给每一个参与恢复的人员。
再下一步就是测试、测试、再测试。当人们提及测试时一般想到的是“成功或者失败”。其实,一个应急测试是不应该失败的。如果我们已经知道计划能够全部起到作用,我们就没有必要去测试它了。应急测试的关键是去发现哪一部分没有起到作用,以使我们可以在灾难实际发生前去修复它。你应该使用紧急通知名单(ENL)来测试你的通知流程,和团队一起用桌面演练的方式来测试你的事件管理流程,以及测试你的备用场地来确认他们拥有真正恢复时所需的所有资源。
每一次测试之后很重要的是记录测试结果、并根据测试更新你的业务连续计划。计划应该至少每年更新一次,如果业务领域有重大变更的话应该更为频繁地更新。
确保所有的员工都知道业务连续计划及其内容。将业务连续计划添加到你的新员工入职指南中,和不同的部门的人进行测试,将企业恢复的责任下放到每一个员工身上。