信息化 频道

建设银行张志深:数据中心运维管理分享

  用信息系统运维理念管理数据中心

  建行总行数据中心在2002年股改以来的快速变革,也为张志深积累了丰富的数据中心运维管理经验,物别是在大型高密度数据中心方面。建行数据大集中工程实施,引发了总行数据中心系统和设备的高度集中、电密度的增大。而对于常规数据中心运维来说,高密度数据中心在运维管理方面有着更高的要求。“现在很多的机房管理还维持在什么坏了修什么,什么时候坏了什么时候修的阶段,这已经远远满足不了大型数据中心运行的基本要求了。”张志深说:“大型或超大型的数据中心的机房的管理,应该要达到两个目标的要求,第一、提前能发现问题,消除隐患。第二、通过日常运维及时发现问题,快速定位问题,及时恢复故障。”

  在张志深看来,未来的数据中心管理机制体系则应该围绕这两个目标建立。确立的目标应依托着怎样的日常运维观念和实施内容来实现?根据他的经验看来应从数据中心的日常监控入手,事件管理、变更管理、应急预案管理和日常施工管理等方面全方位地进行机房的日程监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控系统,并着重监控数据的技术分析。

  第二,要对数据中心的日常维护有一个明确的定义,常规操作包括的内容,如空调、UPS、供配电系统。定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统的全生命周期的追踪。

  另外,变更管理需要更加地精细化,在变更的过程中会引申出很多新的问题,精细化管理能够促进提前发现问题,并消除隐患。发现问题时如何快速定位问题和解决问题?在张志深看,这是一个日常工作涉及的常规过程,全面、有效的监控系统和完善的应急预案是必备的。应急预案应是一个闭环管理,从预案的创建、演练、评估到修订应是一个全过程的管理,绝不能是为了应付某个演练工作,制定后就束之高阁了,而是应该在实际演练和问题发生时不断地总结和完善。

  张志深在采访的最后总结到,以建行的发展历程来看,完善数据中心运维管理机制,首先应对基础建设的运维制定标准。基础设施系统的完善为数据中心整体运行管理提供了一个必要的物质保证。而满足数据中心的可用性的要求,则是运维管理的更高一层要求。

  “数据中心并不神秘,不要因为它的特殊性和专业性而恐慌。把机房当作一个信息系统来看,我们可以引荐信息系统的非常好的管理实践和方法论,来做好机房的运维管理。针对它的特殊性不断修正我们的方法论。”张志深在节目的最后总结到。
 

0
相关文章