天灾？人祸？未雨绸缪让IT危机不再可怕-信息化专区

天灾？人祸？未雨绸缪让IT危机不再可怕

作者：火星人郝婧妤编辑：任彩玲 2007-09-05 00:00

设备问题分级别解决

　　天灾确实可怕，好在发生的几率不大。对CIO们来说，最大的威胁恐怕是来自设备引发的IT危机。随着越来越多的核心业务迁移到IT平台上，核心IT设备一旦发生问题，引发的就不仅仅是IT危机而是业务危机，令人促不及防。

　　美国纽约人寿公司MNYL在印度拥有超过100家的分支机构，MNYL具有高度定制化的企业应用程序，它们都托管在印度Gurgaon的数据中心机房中。就在今年三月份该公司一个财年的结束月份，数据中心中的核心交换机突然出现故障。由于公司的网络体系是集中化的星形结构，该核心交换机的故障直接导致全国的业务陷于停顿之中。

　　对于CIO Kumar来说，不幸中的万幸是购买这个核心交换机的时候签署了24x7小时的替换合同。大约凌晨1点，MNYL公司与交换机供应商取得了联系，凌晨四点多收到了替换的设备。不料，又出现了一个新问题，它与现有的设备不是同一个型号，比现有的交换机具有更多的插槽，一方面它不能上到现有的机架上，而且，原先交换机的备份设置用处不大。

　 CIO Kumar说：“我们不得不对这个交换机在机架上进行临时的安装。然后开始把所有的线缆从老的交换机上移到替换设备上，并对其进行配置。到上午11点，90%的操作被恢复。”

　预防核心设备发生问题，MNYL公司的经验值得借鉴：所有关键的设备要准备好备用设备，核心设备和设置的备份必不可少。同时，支持合同要精心制定，要尽可能考虑到任何意外情况的发生，像替换设备、周转时间和解决时间等事情都应在合同中与设备厂商明确规定。还有一个细节，CIO们更要牢记：详细的文档和结构化布线在灾难恢复的工作中格外重要。因此万不可忽视细节带来的大作用。

　　除核心IT设备外，有时候小玩意也可能引发大危机。在IT领域中，任何环节（不管它是否属于IT系统范围内的）都有可能发生故障，并升级为IT危机。企业信息化负责人要做好面对任何不可预测的事情的发生。

印度国有炼油商Bharat Petroleum的首席IT主管Agrawal就经历了一次由小接线盒引发的IT危机。2006年4月的一天深夜，Agrawal接到一个来自公司数据中心的维护人员的电话，称数据中心正面临着电力中断的危机。30分钟内Agrawal和他的团队迅速赶到了数据中心，发现备用电力正在迅速消耗，已经迫使数据中心关闭了10-12个相对不重要的系统。在UPS的电能还能支持大约45分钟的时候，Agrawal决定关闭所有系统。在UPS的电能还能坚持20分钟的时候，服务器完成了正常的关闭。

　　事后发现，故障出了一个小接线盒上。原来，该数据中心有来自不同电网的两条电力线，但接在同一个接线箱中。接线盒在设计的时候存在着一个单点故障，如果其中一个电力供应商出了问题，就会导致这个接线盒发生故障；数据中心工作可以立即切换到另一个备用电源上，但它只能坚持90分钟。

故障后， Agrawal安排了更多的电力维护人员在数据中心值班，而且新增了闭路电视来监控数据中心，以前是每三到四个小时才检查一次，而现在每小时都进行一次物理检查，检查的范围也不再仅限于计算机技术方面，还包括诸如电力和线缆等方面。

　对于应对一般性设备引发的IT危机，CIO最基本的做法是建立起IT危机管理计划以及各次级计划。IT危机管理计划即Crisis Management Plan（CMP），包括明确定义IT危机管理人员的角色、职责和权限，识别IT危机类型和反应对策程序，以及确认所需的资源等。包括IT紧急反应计划、业务持续计划、IT灾难恢复计划等在内的各次级计划也是支持IT危机管理计划的重要的方式。

第1页：神来之笔应对天灾第2页：设备问题分级别解决第3页：操作失误酿成大麻烦第4页： IT危机解决方案通则

关注我们