【IT168 专稿】如果一个企业需要IT支撑运营的业务遍布全国的话,就如同Mahindra & Mahindra(以下简称M&M)这样的公司一样,数据中心、灾难恢复中心被洪水威胁会变成一个巨大的危机,核心体系的中断会影响全国范围的业务。
对于M&M的CIO来说,应对处于危机中用户的高期望的一个主要挑战是在于管理危机本身。除了定义准确的危机管理过程,例如监视、分析和识别一个发生的危机,更重要的一个工作是:IT团队应根据危机发生的实际情况,采取合适的应对措施,将危机带来的影响减少到最低。在M&M公司就有一个这样活生生的例子,在2005年7月26日的孟买特大暴雨中,IT团队的有效的合作和实时响应让这个公司免遭了一次重大的事故。
暴雨危机的考验
“M&M在孟买的郊区有一个最优异的数据中心,里面有大约200台服务器。所有M&M部门和分支机构的应用程序的中心都在这个地方,这儿的电源、网络和其他冗余设备都非常先进。我们的备份ERP系统的灾难恢复中心也在附近的一个工厂中。”
“M&M的员工都已经对孟买的暴雨习以为常,但是到了7月26日中午,我们意识到这场暴雨非同寻常,有可能会演变成企业的一次危机。”
“由于暴雨带来的洪水袭击了这个城市的大多数地区,所有的电力供应商,包括BSES-Reliance和塔塔电力都停止了供电。我们使用发电机对我们的数据中心供电。”
“不久,我们发现虽然洪水的高度还不至于让洪水进入数据中心,但是却已经进入了地下室的电力室,要知道那是我们的发电机所在的地方。在这种万分危机的时刻,数据中心负责人迅速与一直紧密关注洪水的紧急响应团队进行了协商,与此同时,灾难恢复中心也出现了进水现象。”
“而且,这种情况正在变得越来越糟糕。洪水已经上升到了发电机的面板上,而且我们的燃料正在越用越少。在这个关键的时刻,数据中心的负责人与我进行了联系,因为他需要征得我的同意才能进行所有系统的完全关闭,他对当时的情况进行了说明,推荐我们进行一个完全断电的操作。”
${PageNumber}关闭系统 将损失降到最低
“摆在我面前的有两个事实:我们的燃料只能支撑2个小时了,那时候所有M&M业务也将会被中断。另一方面,我们可以坚持下去,或许暴雨会停止,但是同时这也要冒着异常断电事故的发生,可能会导致数据丢失和更长的恢复过程。”
“根据经验来说,正常的关闭200台服务器大约需要1个小时的时间,我决定采取关闭系统的操作。”
“现在回想起来,假如我们当时不选择关闭服务器和发电机,所面临的风险可能是灾难性的,可能会面临更多的数据丢失,可能会有硬件故障发生,甚至有可能发生火灾。”
“随后所有的M&M的办公室被通知了系统关闭行动。由于系统关闭是在7月27日凌晨4点进行的,而且仅仅持续了4个小时,并没有对我们的企业业务带来什么大的影响。同时,我们把发电室的水清理了出去,并且找到了新的燃料,并用烘干机把发电机的面板烘干了。”
“这次事故开始让我们把灾难恢复中心从孟买迁移到印度的第四大城市晨奈(Chennai),也让我们理解了监视危机中的信号的重要性。这些信号可以让IT团队在危机过程中采取和合理措施,以将损失降到最低限度。”