建设银行张志深:数据中心运维管理分享
【IT168 信息化】
问及金融行业IT建设的关键是什么?十有八九回答信息安全。的确,金融行业对信息技术的依赖程度不断增加,金融机构——特别是银行信息安全保障工作的难度也不断加深。在今年9月召开的银行业信息安全通报会上,央行行长助理李东荣就表示银行业信息安全事关经济金融的稳定大局,银行业要把信息安全列入领导议事日程。
而银行业的数据中心作为承载银行业务的重要IT基础设施,承担着稳定运行和业务创新的重任。在银行新型客户服务模式下,数据中心需要更高效地支持后台业务和信息共享需求,同时要24小时不间断的提供服务,支持如网上银行,电话银行,自助银行,企业银行,手机银行等多种服务手段。这对数据中心的资源整合,全面安全,高效管理和业务连续性提出更高的要求。
庞杂的IT基础平台需要科学管理使用,特别是业务流程梳理,业务运行的安全性、稳定性及高效性有效结合并进一步提高,而解决这一问题则需要一套完整、行之有效的数据中心日常运维管理解决方案。不久前,中国建设银行信息技术管理处、北京数据中心环境管理处的张志深处长受邀来到了由比特网和中国计算机用户协会机房分会携手打造的最新视频谈话节目——“戈友会”,畅谈了大型数据中心运维管理方面的一些重点问题。

中国建设银行信息技术管理处、北京数据中心环境管理处的张志深处长
股改带来数据中心的机遇与挑战
“90年代初期,中国建设银行的38家分行都作为独立的法人进行着经营活动。为保障经营活动的正常进行,每个分行都建立了自己的IT系统和独立的数据中心。”张志深说。与当时多数的金融机构相同,纷繁复杂的信息系统和分散的数据中心并不利于中国建设银行(以下简称建行)信息安全、互联互通及业务的创新与发展。
2002年,得益于股改的契机,建设信息化发展趋势发生了巨大的改变,首先是以数据大集中为标志的建行新一轮信息化建设开始。建行的数据大集中工程主要目是达到全行单一法人的经营结构,在全行建立起一套核心业务系统,以支撑业务的正常运作,而核心业务系统的运行则是依托了北京和上海地的数据中心。
在5、6年的时间里,建行总行数据中心部署的设备快速增加,数据中心规模急剧膨胀。机房面积也由股改前的1千平米扩展到1万平米。在此同时,一级分行数据中心的发展则更加趋于平稳。而这正是印证了建行将更多IT资源应用于总行数据中心的发展策略。与此同时,总行系统的高度集中也为数据中心安全可靠运行,特别是数据中心运维管理的理念、流程和制度等方面提出了更高的要求。
张志深介绍:“建行总行北京和上海两处数据中心虽然总面积已达到了1万平米,但密度不大,总耗电量只有5千多kVA。这里承载着建行的核心业务系统以及电子渠道业务系统,包括网银,清算、证券等交易系统和信息管理系统。”
有建行特色ITIL理念
建行股改后在新的经济结构下业务进入快速发展通道,总行数据中心也在不断地演变发展过程中探寻着适合自己的运维管理方法。相对同业机构而言建行总行数据中心的规模是比较大的,2002年数据集中工程实施以来,大量的信息系统部署到了总行数据中心。
张志深首先为我们介绍了建行总行数据中心运维管理的发展历程:“那时候我们数据中心不论是运维的底子,还是管理方面的经验,以及队伍建设的基础还是非常薄弱的,最近3、4年以来,随着我们持续不断对我们的运维管理的工作加以改革,不断的完善改进,现在基本上建立起来一套专业化的运维管理团队,日常运维工作正在朝着精细化管理的方面不断前进。”
谈到建行总行数据中心的运维理管理念,张志深说:“现在的管理理念是基于ITIL但是又不仅仅局限于ITIL,而是更好地把ITIL理念和建行实际情况结合起来,发展创新出的一套独有的运营管理体系、流程和制度。” 而这套有特色的管理流程正是基于张志深和他的团队根据前期建行总行数据中心运维管理的经验和教训总结而来。
2000年中国迎来了一个机房发展的阶段——现代机房,随着刀片服务器、虚拟化技术的出现,机房也产生了多样化趋势,高热密度机房、综合性的业务机房以及金融企业两地三中心的大型数据中心展现了机房多样化发展的趋势。新技术给建行总行数据中心带来的挑战如何应对?成了摆在数据中心运维团队面前最大的困惑。
面对创新的理念、设备和技术,需要在发展过程中不断调整数据中心运维管理的方法和思维才能适应这种变革。从而真正把握信息发展的方向,灵活地运作IT系统,让其实现对业务的创新与增值和IT自身价值的体现。深谙此道张志深正是在数据中心管理的工作中不断探索,总结出了一套建行的机房运维方法。
探索的道路怎能一帆风顺,张志深为我们举了一个例子。建行的数据大集中工程使得总行数据中心单位面积的电力密度、发热密度骤增,但当时由于对制冷系统在数据中心密度增大之后的影响预估的不足,而导致部分系统报警时有发生。当时的数据中心机房设计理念中,为保证断电后的设备持续运行,普遍将UPS使用的蓄电池配很大冗余,有的则能达到设备断电后一、两个小时的运行,但是空调的供电能力却少有人关注。而真正长时间遭遇断电,空调系统不能快速恢复的情况下,即使拥有长延时的UPS供电的保障,也往往不能按照设计时的预想正常地运转下去。
现在,建行总行北京、上海两地一万平米数据中心支持全系统的业务运行已显得的些局促,而在张志深看来建行总行数据中心基础设施的建设与监管部门的要求仍存在着一定的差距。“经过多次论证,从2007年开始,建行总行在北京和武汉新的服务中心已开始规划。这两个数据中心将满足建行未来20年系统发展的需求。而其中的北京数据中心将作为全行的生产中心,武汉将作为灾备中心,从而一方面解决了生产中心现有容量不足的问题,同时建立了完善灾备系统以满足监管部门对银行业务连续性的要求。”张志深说。