【IT168 评论】全球有上百家公司可提供数据中心基础设施解决方案(DCIM)(附录1“数据中心基础设施解决方案(DCIM)DCK指南”中列出了部分供应商),因此,我们很难确定自己真正需要的功能部件。其中很多解决方案中都包含了以下重要功能构件,包括:
资产管理、变更管理与配置管理
资产管理是DCIM的关键组成。 从服务器、存储装置、联网设备到电源和冷却基础设施,数据中心内包含有成千上万的资产。对这些资产进行跟踪是一项持续且一般工作量极大的任务。Digital Realty Trust在一项调查中曾询问数据中心经理,当有服务器停止工作时,一般需要多久才能被发现。 仅有26%的被调查者表示可以几分钟内找到发生故障的服务器。仅有58%的被调查者表示可在4小时内找到该故障服务器;另有20%的被调查者则表示需要一天以上的时间。数据中心若缺乏设备定位功能,将会增加设备的平均修复时间(MTTR),降低设备的整体可用性。
不过,资产管理所包含不仅是简单的资产定位功能,还包含了解资产配置的详细信息。例如,一台服务器可能由一个或多个机架电源插排供电。若这些电源断开,将会导致服务器停机。这台服务器可能连接有一台或多台切换器或路由器。
重新路由这些网络设备可能导致无法找到相应的服务器。服务器可能是多台虚拟机的主机,若关闭该服务器,将会导致这些虚拟机无法工作。 若不了解服务器配置的详细信息,我们会很难针对服务器及其他配套基础设施做出合理的决策。而且任何配置发生变化,都可能导致服务器及其相关设施变得无法使用。
为了准确地管理资产及其相关配置,我们还必须对变更进行管理。据估算,近有80%的系统停机时间是由于变更导致的,而且近80%的平均修复时间(MTTR)是用在查找哪里发生了变更。因此,变更管理是DCIM解决方案的重要组成部分。在《可见运维手册 - 构建ITIL的四大实践与审核步骤》一书中,作者在对多家高绩效IT组织进行调查时发现,故障排查经理仅需查看资产的计划内变更和授权变更记录(及实际监测到的资产变更),就可以提出问题解决方法的情况占八成以上,而且一次性故障修复率达90%以上。该作者还发现,那些实施了自动化变更审核的机构在了解到数据中心默默无闻地发生了多少变更后,都感到极为震惊和恐慌。能够对已授权变更及监测到的变更(不需授权的变更)进行跟踪是DCIM的一项重要功能,可大大缩短设备的平均修复时间,提高系统的整体可用性。
实时监控
数据中心有三种类别的实时监控系统:
o 楼宇管理系统(BMS) – BMS一般是使用了Modbus、BACnet、OPC、LonWorks 或简单网络管理协议(SNMP)的基于硬件的系统。该系统用于监测及控制建筑物内的机械和电气设备。BMS一般为定制系统,成本取决于要监测的数据点的数目(UPS上的输出负载或机房空调单元的回风温度等都属于此类数据点)。有时,BMS系统会延伸到数据中心,用于监测和控制电源及冷却设备。
o 网络管理系统(NMS)- NMS一般是使用SNMP的基于软件的系统,用于监控数据中心内的网络设备。网络设备一般可被自动发现,因此,安装起来具有一定的自动性。
o 数据中心监测系统(DCMS)-DCMS是用于监测数据中心和机房的基于硬件及(或)软件的系统。设备一般通过SNMP进行通信,不过,有些数据中心监测系统还通过Modbus、IPMI或其他协议进行通信。
• 在评估DCIM解决方案的实时监测能力时,有多项重要特性需要考虑。其中一个关键要素就是您想要监测什么设备。这一问题的答案对所选解决方案的影响最大。
例如,若您要监测的设备即包含使用SNMP通信的设备,也包含使用Modbus通信的设备,那么,您所选择的解决方案一定要同时支持SNMP和 Modbus协议。避免选用那些仅能监测某一供应商特定设备的解决方案,否则,若要对整个数据中心进行监测,您可能就需要购买多个单独的系统。理想状态下,您要选择一款能够支持多种现成硬件的DCIM解决方案,换言之,所选用的解决方案不应具有供应商定制性。而且,所选解决方案还要能够同BMS等其他已有的监测系统集成。
此外,您还要考虑该实时监测是否采用了硬件部件。基于硬件的系统并非存在固有缺陷,事实上,与基于软件的系统相比,基于硬件的系统能够更快、更频率地采集数据。但根据所需硬件部件的数目及各部件价格的不同,有时硬件成本可能导致整个DCIM解决方案的价格变得过于高昂。
系统能否支持设备自动发现功能是需要考虑的另一个重要特性。自动发现功能有诸多优点,能够让设备安装起来更快速、更轻松,更不易出现用户手动配置设备时可能发生的错误。需要指出的是,由于自动发现功能取决于设备的配置及所使用的通信协议(例如,SNMP设备一般可被自动发现,而Modbus设备通常无法被发现),因此,并非所有设备都能够被自动发现。
工作流
很多数据中心都在一定程度上实施了类似ITIL的流程。DCIM解决方案可帮助您协调这些流程。例如,新服务器的安装一般包含多个步骤,有时可能需要数据中心的不同工作组共同完成。
DCIM解决方案可对各步骤进行跟踪,各工作组可报告自己任务的完成状态,以验证是否所有所需步骤均已完成。在这种情况下,工作流功能可起到协调服务器安装步骤的作用,以确保在技术人员将服务器安装到机架前,各项准备工作均已完成,简化整个工作流程。
而且重要的是,DCIM工具所提供的工作流功能可根据您所定义的流程结构内的工作进行调节,而不需要您调节自己的流程,以与预先定义的工作流相配合。
分析与报告
DCIM解决方案的另一重要功能就是数据分析和报告。由于数据中心内有数千台设备,每台设备都会报告多项测量结果,因此,所采集到的数据量很快就会变得无比庞大。所以,DCIM工具必须能够快速对这些数据排序,并为管理团队提出可行建议。DCIM工具可通过报警信息、显示变更及变更时间的历史数据图片、仪表板和报表等方式,提出此类建议。DCIM 工具可能提供有预定义的报表,但同时也要支持基于用户所选参数的特别报告功能。
物理和虚拟基础设施的可视化
DCIM解决方案的一个重要组成就是能够查看物理和虚拟基础设施。当今市场上各种DCIM工具的可视化功能各不相同。有些DCIM工具可与AutoCAD或Visio等可视化工具交互,而有些则提供了虚拟编辑器,您可以在该工具内完整地对自己的基础设施布局。尽管当前大部分的解决方案提供的都是俯视图,不过,有些解决方案还提供有3D视图,让您能够在数据中心内“漫游”。很多解决方案都提供有数据中心的多层视图,可查看诸如温度、机架使用率、功率等各种参数。
这些可视视图一般延伸至机架等级,DCIM工具可提供机架内各设备的可视视图。该视图会显示设备在机架或服务器内的真实位置,并可提供各位置机架内的温度、机架内用电量等额外数据。
用户界面
若将DCIM的功能归根结底为向用户提供信息,那么归根结底来说,一款不错的DCIM用户界面要以便于使用的方式为用户提供信息,以让用户做出明智的决策。在《规划合理的数据中心操作系统的五大重要组成》一文中,Kevin Malik描述了DCIM用户界面的重要性,他在文中指出“数据中心操作系统拥有一个直观的界面,使用户能够快速地查看各项报警、环境条件及其他详细分析数据至关重要。”接着他还补充道,“各公司应能够对机械数据、功率、冷却和用电量等实时数据的视图进行定制,以使决策者能够根据自己的职责范围查看所需数据,进而优化数据中心的运行情况”。
就像可视化部件一样,DCIM的用户界面在外观、感受和整体功能方面也各不相同。尽管大部分的DCIM产品都是基于web,用户可随时随地查看数据,但是,用户界面的格式却大不相同,其中包括仪表盘式、触摸屏式,有的还具有支持 iPad及智能手机等手持设备的功能。
容量规划
DCIM应用程序所采集数据的一项重要功能就是为容量规划提供信息。当数据中心能够最大程度地利用其关键资源时,尤其是电力和冷却资源时,才可实现最高运行效率。通过持续记录资源消耗量及分析增长模式,数据中心管理人员能够更加准确地预测哪种资源将被耗尽。有了DCIM工具,管理人员能够更为高效地管理各项关键资源,经常可推迟数据中心的扩建日程。
与其他数据中心管理解决方案集成
事实上,DCIM解决方案可能永远无法像一些DCIM供应商所宣传的那样,能够替代数据中心内的其他各种管理工具。数据中心所使用的常见管理工具包括变更管理、CFD建模、资产管理、楼宇管理系统、维护管理及一些第三方或机构内部开发的工具。一款不错的DCIM解决方案能够与一些外部系统相集成,具有从加载Excel电子数据表到直接与成熟的基于web 的API(应用程序接口)进行数据库交互的功能,使得DCIM能够从外部导入及向外部导出数据。