编者按:现代企业可能在不同的地方有分公司或办事处,而它们的各种信息化系统则借助于网络连接在一起,核心交换机或核心路由器等中心设备则是这个网络中的中心枢纽,它的稳定与否会给信息化系统带来直接的影响。对于CIO们来说,为了避免因为核心设备故障带来的IT危机,配备应急备用设备和在合同中明确支持服务细节就变得相当重要。美国纽约人寿子公司印度分公司Max New York Life(以下简称MNYL)副总裁Amit Kumar用它们公司的一次IT危机生动地说明了这一点。
【IT168 专稿】美国纽约人寿子公司MNYL在印度拥有人寿保险业务,在印度有超过100家的分支机构。MNYL具有高度定制化的企业应用程序,它们都托管在印度Gurgaon的数据中心机房中。三月份作为该公司一个财年的结束月份,无论是从战略角度还是从业务角度,都是一个非常重要的时间。
核心交换机的故障
然而,就是在这个关键的时间,MNYL经历了一次公司历史上最严重的IT危机,数据中心中的核心交换机突然出现故障。这种高端核心交换机的平均故障时间(MTBF)是非常低的。在Kumar的IT职业生涯中,这还是第一次碰到。由于公司的网络体系是集中化的星形结构,该核心交换机的故障直接导致全国的业务陷于停顿之中。
Kumar表示,“这个核心交换机是在午夜发生故障的,一些关键的批处理任务正在进行中。因此首先要做的任务是将整个操作回溯到正常状态。这是一个工作量巨大的任务,因为我们有超过150台服务器通过50多台用户局域网的接入交换机连接到这个核心交换机,而这个工作需要等到9点钟才能确认完成,因为这个时候不同办公室的工作人员才会到达办公室。”
“幸运的是,这个核心交换机在购买的时候具有24x7x4小时的替换合同。从这个事件中,我需要与所有CIO分享的一个经验是,对于关键的设备,一定要在支持级别上选择最高的支持等级。”
详细的文档不可或缺
“大约凌晨1点,我们与厂商取得了联系,早晨前几小时我们就收到了替换的设备。然而新的问题是,它与我们现有的设备不是同一个型号,它比现有的交换机具有更多的插槽,一方面它不能上到现有的机架上,而且,原先交换机的备份设置用处不大。”
“我们不得不对这个交换机在机架上进行临时的安装。然后开始把所有的线缆从老的交换机上移到替换设备上,并对其进行配置。从这个工作中我们体验到,详细的文档和结构化布线在灾难恢复中的重要性显得格外突出。我的IT团队经过艰苦的工作来确认交换机被正确配置,以及中断的操作被恢复正常。截止到上午11点,90%的操作被恢复。”
“从这个事件中我们学到一个关键教训是,对于所有关键的设备要有备用设备,某些人可能说这是一个常识经验,但是我之所以在这儿强调这一点,是因为我们很多人为了省钱而忽略了这一点。在我们面临的危机中,我们不得不重复进行整个工作,因为替换设备与我们现有设备型号不同。同时,支持合同要精心制定,要尽可能考虑到任何意外情况的发生。像替换设备、周转时间和解决时间等事情都应在合同中与设备厂商明确规定。”
“最后,还有很重要的一点要明确,信息技术在帮助企业实现其业务目标中起着关键的作用,因此必须采取所有的措施来保证其平稳运行。”