【IT168 专稿】时隔近半年,北京的李小姐仍然无法忘记3月份交通银行宕机带给她的一连串阴影:3月21日上午,李小姐想通过交通银行的网上银行汇款报名参加一个学习班,但网上银行的页面却迟迟无法打开使她错过了最后的报名时机,后来她才知道银行系统出现故障,包括上海、广州等城市在内的全国部分营业网点都无法交易。
这次交通银行主机网络与网络系统链接故障引发的IT危机,给像李小姐这样的许多客户带来很多麻烦,有人甚至因此办理了清退交行银行卡的业务,令交通银行的声誉和客户信任度也受到极大伤害。
当越来越多的业务运行在日益复杂的IT系统之上时,IT危机已经渐渐由“假想敌”变成真实的风暴中心,稍有闪失,就可能对企业造成致命打击。而IT危机的来源也多种多样——地震、洪水、雷电、恐怖袭击等天灾,系统崩溃、数据掉失、设备损坏等技术问题,病毒、误操作、IT骨干离职等人祸,无不使IT部门的CIO们提心吊胆、如履薄冰。虽然CIO们并不是每天都遇到这些事件,但是如果不未雨绸缪做好应对IT危机的准备,一旦发生问题,轻则IT部门加班熬夜,再则CIO挂靴离职,重则企业可能陷入无可挽回的境地。
如何避免IT危机的发生?如何将IT危机的负面影响降低到最小范围?这些都是CIO们日夜思虑的重大难题。
神来之笔应对天灾
今年年初,台湾地震导致途经台湾海峡的多条海底光缆中断事件当属近期给IT系统造成最大影响的天灾之一。受其直接影响,中国大陆通往中国台湾、北美、欧洲、东南亚等方向的互联网大面积瘫痪,给不少企业造成了严重的经济损失。
类似的IT危机也曾经发生在印度,但印度Mphasis公司的业务却没有受到丝毫影响。Mphasis是印度著名的软件服务出口商,为了缓和公司的业务流程外包(BPO)操作风险,该公司不仅与其客户实行连续性的计划,其IT部门还使用了一个多层标签交换MPLS网络来连接其国内的其他分支机构;而且在最后一公里接入方面,Mphasis公司采取了冗余保护,采用两种不同的传输媒体互为备份,在其中一条出问题的时候,另一条线路还可以让业务保持正常。Mphasis公司的网络是一个具有冗余线路的双层ATM(异步传输模式)环,这意味着该公司可以在发生意外情况的时候自动切换系统到没有故障的线路中。这些神来之笔令其不仅能轻松应对来自人为的风险,即使发生了地震这样的自然灾害,Mphasis的CIO也能高枕无忧。
(印度CIO用自己的智慧和勇气,保护着这片神奇的国土上的IT危机。)
除了地震外,洪水也经常考验CIO们的危机处理能力。2005年7月26日,暴雨袭击了孟买,洪水进入了印度著名汽车生产商Mahindra & Mahindra公司数据中心地下室的电力室。当时,洪水已经上升到了发电机的面板上,燃料正在越用越少,与此同时该公司的灾难恢复中心开始进水。在这万分危机的时刻,该公司CIO迅速与一直紧密关注洪水的紧急响应团队协商,果断地下达了关闭200台服务器的命令。这次系统关闭选择在凌晨4点进行,仅持续了4个小时,同时,人们把发电室的水清理了出去,并且找到了新的燃料,并用烘干机把发电机的面板烘干了。
对于这些无法预见的风险,CIO们不能坐等着IT危机发生后再手忙脚乱地部署应对之策,而应该在IT危机发生前就尽量预见到在网络、硬件或数据方面可能会发生的问题,以从源头上将其彻底解决、维护业务的连续性。同时,在做好应对危机准备的同时,IT部门也必须要时时监视危机中的信号,对其进行正确地分析和识别,并采取合适的应对措施,将危机带来的影响减少到最低。
设备问题分级别解决
天灾确实可怕,好在发生的几率不大。对CIO们来说,最大的威胁恐怕是来自设备引发的IT危机。随着越来越多的核心业务迁移到IT平台上,核心IT设备一旦发生问题,引发的就不仅仅是IT危机而是业务危机,令人促不及防。
美国纽约人寿公司MNYL在印度拥有超过100家的分支机构,MNYL具有高度定制化的企业应用程序,它们都托管在印度Gurgaon的数据中心机房中。就在今年三月份该公司一个财年的结束月份,数据中心中的核心交换机突然出现故障。由于公司的网络体系是集中化的星形结构,该核心交换机的故障直接导致全国的业务陷于停顿之中。
对于CIO Kumar来说,不幸中的万幸是购买这个核心交换机的时候签署了24x7小时的替换合同。大约凌晨1点,MNYL公司与交换机供应商取得了联系,凌晨四点多收到了替换的设备。不料,又出现了一个新问题,它与现有的设备不是同一个型号,比现有的交换机具有更多的插槽,一方面它不能上到现有的机架上,而且,原先交换机的备份设置用处不大。
CIO Kumar说:“我们不得不对这个交换机在机架上进行临时的安装。然后开始把所有的线缆从老的交换机上移到替换设备上,并对其进行配置。到上午11点,90%的操作被恢复。”
预防核心设备发生问题,MNYL公司的经验值得借鉴:所有关键的设备要准备好备用设备,核心设备和设置的备份必不可少。同时,支持合同要精心制定,要尽可能考虑到任何意外情况的发生,像替换设备、周转时间和解决时间等事情都应在合同中与设备厂商明确规定。还有一个细节,CIO们更要牢记:详细的文档和结构化布线在灾难恢复的工作中格外重要。因此万不可忽视细节带来的大作用。
除核心IT设备外,有时候小玩意也可能引发大危机。在IT领域中,任何环节(不管它是否属于IT系统范围内的)都有可能发生故障,并升级为IT危机。企业信息化负责人要做好面对任何不可预测的事情的发生。
印度国有炼油商Bharat Petroleum的首席IT主管Agrawal就经历了一次由小接线盒引发的IT危机。2006年4月的一天深夜,Agrawal接到一个来自公司数据中心的维护人员的电话,称数据中心正面临着电力中断的危机。30分钟内Agrawal和他的团队迅速赶到了数据中心,发现备用电力正在迅速消耗,已经迫使数据中心关闭了10-12个相对不重要的系统。在UPS的电能还能支持大约45分钟的时候,Agrawal决定关闭所有系统。在UPS的电能还能坚持20分钟的时候,服务器完成了正常的关闭。
事后发现,故障出了一个小接线盒上。原来,该数据中心有来自不同电网的两条电力线,但接在同一个接线箱中。接线盒在设计的时候存在着一个单点故障,如果其中一个电力供应商出了问题,就会导致这个接线盒发生故障;数据中心工作可以立即切换到另一个备用电源上,但它只能坚持90分钟。
故障后, Agrawal安排了更多的电力维护人员在数据中心值班,而且新增了闭路电视来监控数据中心,以前是每三到四个小时才检查一次,而现在每小时都进行一次物理检查,检查的范围也不再仅限于计算机技术方面,还包括诸如电力和线缆等方面。
对于应对一般性设备引发的IT危机,CIO最基本的做法是建立起IT危机管理计划以及各次级计划。IT危机管理计划即Crisis Management Plan(CMP),包括明确定义IT危机管理人员的角色、职责和权限,识别IT危机类型和反应对策程序,以及确认所需的资源等。包括IT紧急反应计划、业务持续计划、IT灾难恢复计划等在内的各次级计划也是支持IT危机管理计划的重要的方式。
操作失误酿成大麻烦
除了IT设备外,“人祸”也时常导致IT危机。在“人祸”中,尤其以黑客袭击、传播病毒的危害为最大。如果核心系统遭受到病毒破坏,IT部门不妨学学印度百货公司Pantaloon Retail公司的做法:先临时安放几台干净、安全的计算机,安装上关键的企业应用程序,以允许用户前来访问诸如ERP之类的一些企业系统,以保证业务正常进行。以临时方案应对病毒之余,IT部门一定要部署强大的网络安全保证。
在剿灭病毒工作的同时,IT部门需要创建一个紧急事件服务台,杀灭病毒后由紧急事件服务台统一设置桌面计算机设置,使它可以很容易地被服务器端管理。IT部门可以用服务器级别的管理工具将网络范围内一台或几台受感染的计算机轻松有效地隔离出来。同时,IT部门也需要制定相应的策略,来限制用户对USB设备和互联网的访问,以减少病毒进来的途径。
人为的误操作是CIO不得不正视的另外一个难题。有时误操作问题发生得极其愚蠢,而且导致的后果却极其严重。国内某公司的一位网管员在给新进的IBMDS4800做RAID的时候,错误地将KVM连在了生产系统的HUB上,对新上的盘阵DS4800和原有生产系统上的盘阵DS4300同时做了一个DEMO,并进行了时钟同步,于是,所有的Volumn Group掉下去了,生产停止了……35亿元的交易数据不翼而飞。几经周折,在IBM二线工程师的指导下,35亿元的交易数据才失而复得。
CIO要制定严格的工作流程,并设置不同的权限分配给每位IT员工,要求员工按照工作流程进行自己权限范围内的工作。同时,IT部门要进行定期培训,将业务的最新进展和技术更新传达给每位员工。同时,安排特定岗位的员工每天进行日志备份,并定期进行完全备份,保证每天的工作轨迹可以上溯,每一步操作都可以查找到操作负责人在什么时间进行了什么操作的信息。
IT危机解决方案通则
针对不同类型的IT危机,CIO们可以总结出各种各样的解决办法。而IT危机管理则可以教CIO们制定一套完整的预警流程和危机解决方案。
①必须建立IT危机预警机制。预警机制并非泛泛而言,CIO们要按照各种不同的IT危机类型制定不同的预警方案。CIO可列出一张IT危机评估表,详列出可能发生的危机,并且评估它们的等级,依发生的可能性从最可能到不太可能依序排列。例如针对设备故障或人为操作导致的IT灾难备份,CIO应该根据业务实际需要制定好详细的灾备计划,备份时间间隔、备份类型,本地备份还是异地备份等。
②组建IT危机管理小组。小组的主要作用在于全面清晰的对企业可能面对的各种危机进行预测,为处理危机制定有关的策略和步骤;对员工进行IT危机培训;在遇到危机时,能够全面、快速的处理危机。
③确定IT危机级别。不同的IT危机状态,有不同的处理方法。没有事先确定IT危机级别列表,会给危机处理带来很大的混乱和不便。IT部门需要先定危机级别,并制定相应的危机处理方法,只有这样,才能在危机来临时,做到“兵来将挡,水来土淹”。
④确立IT危机处理程序和实施细则。这些流程在业务正常时不起作用,但是IT危机发生时会及时启动并有效运转,对危机的处理发挥重要作用。这样一旦危机出现,各部门、员工知道做什么,而不必依靠某一个关键人物的急中生智力挽狂澜。
⑤进行IT危机模拟预演。IT危机演习是为了评估危机预警系统能否有效地实施。定期的模拟训练不仅可以提高IT危机小组的快速反应能力,强化危机管理意识,还可以检测已拟定的危机应变计划是否充实、可行。找出IT危机预警准备中的不足,可以及时改善。
IT危机防不胜防,因此,如何处理已经发生的危机,把危机损失和影响减少到最低程度也需要有法可依。
危机爆发时的破坏力最大,因此IT部门第一步要做的就是遏制危机,像Pantaloon Retail公司这样做一些临时解决方案,先在最短的时间内掌握并控制危机形势,将损失降至最低。第二步要做的就是防止危机的蔓延。
①在危机处理时,要立即启动危机处理小组对IT危机的状况做一个全面的分析:危机产生的原因是什么,内因还是外因?危机发展的状况及趋势如何?在这个阶段,速度是关键,危机不等人。在IT危机发生后最短的时间内做出反应采取相应措施,根据不同情况确定工作的优先次序,把损失变为最小。
②针对IT危机产生的原因立刻制定相应的危机计划和对策。是切换网络线路还是迅速调用备用设备,是启动临时解决方案还是进行手工的数据恢复,一旦确定好对策,CIO就要明确所涉及部门及人员的权利和责任,对人员进行有效配置,做到事事有人管,从而在危机来临时都能够迅速找到自已的位置。
③必须有IT危机管理的预算。IT危机处理必须根据自身的人力、物力、财力资源为基础,而不能以IT危机事件的种类为依据,否则危机处理只会成为水中月,镜中花,没有任何现实意义。
检验危机管理是否有效,CIO们可以按照如下两个步骤进行:第一,如果在非办公时间出现危机,公司有什么样的内部沟通系统?例如星期天遇到危机,需要多长时间消息传达到每一位相关责任人?第二,针对IT危机类型,公司有什么样的应急反应计划?这项计划最后一次更新是什么时候?以前有没有使用过以确认它是否有效?它与公司其他的反应计划能否匹配?
古语云:“人无远虑,必有近忧”。既然IT危机不可避免,只有防范危机未然中,才能扭转IT危机于旦夕之间。平时多一些IT危机意识,多制定几套对付各种可能出现的IT危机之策略,危机来临时就会镇定从容得多。