设备问题分级别解决
天灾确实可怕,好在发生的几率不大。对CIO们来说,最大的威胁恐怕是来自设备引发的IT危机。随着越来越多的核心业务迁移到IT平台上,核心IT设备一旦发生问题,引发的就不仅仅是IT危机而是业务危机,令人促不及防。
美国纽约人寿公司MNYL在印度拥有超过100家的分支机构,MNYL具有高度定制化的企业应用程序,它们都托管在印度Gurgaon的数据中心机房中。就在今年三月份该公司一个财年的结束月份,数据中心中的核心交换机突然出现故障。由于公司的网络体系是集中化的星形结构,该核心交换机的故障直接导致全国的业务陷于停顿之中。
对于CIO Kumar来说,不幸中的万幸是购买这个核心交换机的时候签署了24x7小时的替换合同。大约凌晨1点,MNYL公司与交换机供应商取得了联系,凌晨四点多收到了替换的设备。不料,又出现了一个新问题,它与现有的设备不是同一个型号,比现有的交换机具有更多的插槽,一方面它不能上到现有的机架上,而且,原先交换机的备份设置用处不大。
CIO Kumar说:“我们不得不对这个交换机在机架上进行临时的安装。然后开始把所有的线缆从老的交换机上移到替换设备上,并对其进行配置。到上午11点,90%的操作被恢复。”
预防核心设备发生问题,MNYL公司的经验值得借鉴:所有关键的设备要准备好备用设备,核心设备和设置的备份必不可少。同时,支持合同要精心制定,要尽可能考虑到任何意外情况的发生,像替换设备、周转时间和解决时间等事情都应在合同中与设备厂商明确规定。还有一个细节,CIO们更要牢记:详细的文档和结构化布线在灾难恢复的工作中格外重要。因此万不可忽视细节带来的大作用。
除核心IT设备外,有时候小玩意也可能引发大危机。在IT领域中,任何环节(不管它是否属于IT系统范围内的)都有可能发生故障,并升级为IT危机。企业信息化负责人要做好面对任何不可预测的事情的发生。
印度国有炼油商Bharat Petroleum的首席IT主管Agrawal就经历了一次由小接线盒引发的IT危机。2006年4月的一天深夜,Agrawal接到一个来自公司数据中心的维护人员的电话,称数据中心正面临着电力中断的危机。30分钟内Agrawal和他的团队迅速赶到了数据中心,发现备用电力正在迅速消耗,已经迫使数据中心关闭了10-12个相对不重要的系统。在UPS的电能还能支持大约45分钟的时候,Agrawal决定关闭所有系统。在UPS的电能还能坚持20分钟的时候,服务器完成了正常的关闭。
事后发现,故障出了一个小接线盒上。原来,该数据中心有来自不同电网的两条电力线,但接在同一个接线箱中。接线盒在设计的时候存在着一个单点故障,如果其中一个电力供应商出了问题,就会导致这个接线盒发生故障;数据中心工作可以立即切换到另一个备用电源上,但它只能坚持90分钟。
故障后, Agrawal安排了更多的电力维护人员在数据中心值班,而且新增了闭路电视来监控数据中心,以前是每三到四个小时才检查一次,而现在每小时都进行一次物理检查,检查的范围也不再仅限于计算机技术方面,还包括诸如电力和线缆等方面。
对于应对一般性设备引发的IT危机,CIO最基本的做法是建立起IT危机管理计划以及各次级计划。IT危机管理计划即Crisis Management Plan(CMP),包括明确定义IT危机管理人员的角色、职责和权限,识别IT危机类型和反应对策程序,以及确认所需的资源等。包括IT紧急反应计划、业务持续计划、IT灾难恢复计划等在内的各次级计划也是支持IT危机管理计划的重要的方式。