我确信你已经阅读了很多讨论卡特里娜飓风之后有关灾后恢复和业务连续的文章。本来我并没有计划再写这方面的文章,然而,当我要写这篇文章时,飓风丽塔再有一两天就要抵达德克萨斯海岸了。背靠背的灾难对业务连续性提出了一些有趣的问题,在参与了一个因为受到接连两次灾难冲击的重要数据中心的灾后恢复工作后,我感觉有必要就这个问题写些东西。
1993年2月,仅仅在纽约世贸中心大楼所遭受的第一次袭击发生两周之后,一场暴风雪压坏了美国最大的ATM数据备份中心的屋顶;而这家数据备份中心主要是为银行ATM服务提供数据备份服务,屋顶的坍塌使得这家数据中心关闭了。
这是一家拥有可靠灾后恢复计划的专业数据备份中心,灾后的12小时内启动备用设备,所有的运作业务在3天之内得到恢复(在上世纪九十年代早期,ATM使用的通信设备需要很多时间才能切换到备用服务器),在备份中心拥有空间的情况下,所有的业务数据都将被备份。
同世贸中心的财务公司所用的系统一样,ATM运营所需的系统基本上也是基于Tandem计算机,爆炸发生前的两周新安装的系统要求将数据的备份到可支持Tandem设备的两个恢复站点(分别分布在东西海岸)。当数据中心的屋顶被压塌时,这些恢复站点的空间都满了。恢复站点一般是先来先服务,当你需要时,并不能确保拥有空间,这主要是基于这样一个假设:灾难很少发生,所以价格高昂的备份设施应该服务很多客户,专门的计算机意味着只有有限的备份空间,而两周前的灾难已经占用了可用的空间。
因为这是特殊的情况就不应该被恢复计划考虑在内吗?是的,灾难接踵发生的情况是很少见的情况,但是一个可靠的业务连续计划绝对不应该将背靠背灾难发生后的业务实时恢复的情况排除在外。下面的几种情况需要考虑:
● 如果备用站点不能用怎么办?
● 如果所有雇员都受到灾难(第一个和第二个)的影响而不能进行站点恢复怎么办?
● 如果在主站点恢复之前,又有灾难袭击了备份站点怎么办?
● 如果离线的数据存储遭到破坏怎么办?
● 如果在恢复的最初几个小时内,传输被限制怎么办?
这是几个需要问的问题,关键是考虑如何应付接踵而来的灾难。卡特里娜飓风之后呆在休斯敦的撤离人员在丽塔飓风来到之后只好从他们的临时避难所里再次撤离;后续的灾难也必须有恢复计划,由于准备资源都用在了卡特里娜飓风的灾后恢复工作,所以丽塔飓风后的恢复工作困难了许多。
正如各级政府官员和业务部门人员在重新评估她们的灾难预防计划一样,很多IT部门和外包业务提供商也重新审视了它们的业务连续计划。如果你要参与这些计划,请确保邀请外包商参与这些过程,并考虑遇到背靠背灾难的情况。当灾难发生时,也许你不能及时恢复,所以也许你的备份本省也需要备份。