【IT168 信息化】
IT运维的困惑
当前,随着企业业务的不断扩张,IT设备以及硬件也随着业务的扩张而不断增加,随之带来的是运维工作变得越来越复杂:以成长型的企业来讲,过去100人规模企业它的IT运维人员也需要5人左右,但当企业规模达到500人以后,现有的IT运维人员已经不能满足企业的需求,对于IT运维人员来讲,过去维护一台PC或者一组网络,可以很亲松,很快的完成,但当企业的PC迅速增长的时候,增加了IT运维人员复杂度,并且无法及时的了解IT的故障。IT运维人员不断的呼吁,有没有能够减少我们工作中的工作量?有没有可以减少故障的发生率?
IT自动化管理这一趋势显然正在受到运维人员关注,据了解,当前许多的IT运维人员很是希望可以通过自动化的运维平台来综合管理,但目前由于市场上的产品“琳琅满目”,并不了解,哪些运维产品能够真正满足,适应运维的需求,在再加上有限的IT预算,使IT自动化管理在企业中应用的并不是很理想。
针对于IT运维人员的困惑,IT168记者日前走访IT运维领域相关的服务商,就IT运维产品的功能特点采访了相关人员,以飨读者。以下是IT168记者采访NEC本部第二IT软件事业部统括部长 山崎正史,就NEC的运维新产品MasterScope功能特点进行了详解。
简单自动化 运维新启点
提到NEC相信并不陌生,从成立到现在已经有百年的历史,NEC主要涉及的领域很广包括IT专业的服务、IT相关的产品、网络产品、电子科技、社会基础设施以及个人解决方案等等。而在IT运维领域,NEC更是“推旧呈新”于不久前推出适合于不同企业规模的IT运维产品——MasterScope。
据NEC本部第二IT软件事业部统括部长山崎正史介绍, MasterScope产品在日本的政府、金融、医疗等行业都有众多的成功案例。如今中国客户的业务飞速增长,为了更好地为中国客户服务,NEC发布MasterScope了中文版。
据了解,MasterScope是包括服务器、网络、OS、中间件等IT管理组件的产品群,例如控制虚拟资源是由平台运维管理等产品进行;作为综合运维管理的产品群涵盖面非常广泛,从各个产品中得到的信息,聚集在综合运维管理的产品。在系统以及服务上进行自动化管理,故障处理以及恢复,实现“简单运维管理”。
为了简单管理多样的系统,MasterScope采用集成架构,以共同运维管理基础MasterScope FrameWork为核心。MasterScope FrameWork提供GUI消息管理、软件管理等运维管理基础功能。这些基础功能在服务器管理、存储管理、网络管理等各个组件里共同使用。
而在过去需要使用不同的工具进行故障监视、系统更改、版本管理的工作,现在可以实现标准化的统一管理,从综合控制台的一个画面可以简单的掌握系统的全体,从而有效地进行运维管理。
MasterScope具有灵活的扩展性,应用于大规模用户、云计算数据中心以及中小规模用户。在MasterScope系列中,在云领域重点开发的两个新产品,CloudManager和vDC Automation。
据NEC相关负责人称,在这两年内,MasterScope以实现云数据中心的整体管理为目标:
一、运营成本最优化;
二、IT资源最优化;
三、能源成本最优化。
以运营成本最优化为例,系统性能分析产品Invariant Analyzer利用性能分析引擎来自动检测故障,通过容量管理来预测未来的扩容需要。
NEC(中国)IT网络平台事业部软件销售部经理律戬详细的从五方面介绍了MasterScope的功能,他指出:
第一、云环境中的系统运维管理
云计算的发展让应用越来越方便,而且业务系统的使用者不需要考虑系统架构、系统维护相关的问题。这一问题就交给运维管理者去考虑。那么,云环境系统运维带来哪些变化呢?
首先,在云环境中所有的设备、服务器、网络、存储都会变得更为集中,设备的大集中会使云环境变得非常复杂。第二、在云环境中大量使用虚拟化的技术,虚拟化的使用首先是带来需要管理目标的增加,另外就是系统架构会随着业务的变化而不断的发生动态的变更。这些给运维管理带来一些新的需求,而运维管理为了适应这一需求会发生动态变化、虚拟化的环境,必须做出相应的调整。
针对云环境中的系统运维的特性,为了实现运维的负荷和成本的优化,关键在于两个方面、一是可视化,二是自动化。通过可视化,可以实时的掌控云环境整体架构的状况和IT服务及功能要素的相关性能。通过自动化,可以提供维护的效率。
这些问题通过MasterScope产品群得到解决,实现运维的非常好的状态。MasterScope提供的功能有几方面:
一、综合监视;
二、物理架构和虚拟架构德克士华管理;
三、维护作业的自动化。
这些都围绕着可视化和自动化两个关键所做。
第二、MasterScope产品体系
首先,MasterScope最底层有一个IT基础架构管理的层面,IT基础架构是对服务器、对网络、存储及应用程序分别有独立的产品对它进行管理和控制。
在运维管理的操作层面提供工具,其中包括自动化的批处理作业管理JobCenter,还有软件分发、平台管理及备份管理产品这些工具实现运维管理的自动化,提高管理的效率。
运维管理里面最核心的应该是对系统的监控,通过系统监控的层级示意图,看一下产品的架构。首先看到金字塔型的示意图展示的是我们的系统从最底层的硬件平台到上一层的服务器及服务器相关资源到最上一层的应用。每个环节都有相关的产品对它进行监控,监控层面也就是刚才介绍的IT基础架构的管理这样一个层面。这些产品监控的结果由综合管理产品来做一个统一的管理,它可以把每一个环节的监控状况统一管理起来,并且提供综合管理的相关功能。
针对统一管理所有的性能和信息,通过Invariant Analyzer来做一个自动化的分析,从中寻找系统当中存在的性能问题或者为性能优化做相关的指导。
第三、实现IT系统的可视化管理
运维人员在云环境中对整个系统进行管理首先要判断的就是网络的拓扑结构图,产品提供的网络拓扑可视化功能,首先会自动发现网络中所存在的设备包括网络设备服务器、存储等等,并且自动展示各个设备之间的拓扑关系。可以根据这些设备物理存放的实际位置,按照层级展示,可以按照地域的分布状况,可以按照楼层的分布状况甚至按照机架的位置。还可以统一管理不同厂商各种各样的网络设备和服务器,在我们的网络拓扑中做一个统一的管理。
同时还可对虚拟环境,包括虚拟机、底层的虚拟平台,通过与不同厂商架构的对接,可以实时掌握虚拟架构当中发生动态变化的状况。当虚拟环境根据业务的要求,在不同物理架构之间进行迁移时,可以实时掌握迁移状况,并且通过一个图形化的界面展示出来。除此之外,还可以自动化的调度虚拟平台的功能。
系统性能的可视化管理,管理人员日常工作当中更关心的是整体的系统性能状况如何,首先可以通过产品展示出网络设备、服务器,甚至于应用程序详细的性能详细,通过这些性能详细的图形化展示,还有预值的监视,可以分为两级对预值进行监视,可以实时掌控系统性能的状态如何,并且通过数据定期输出的功能,把所监控到的性能信息输入到一个数据库当中,为我们创建性能报表做出相关的准备。
第四、实现IT系统运维自动化。在MasterScope系统中,很多的运维处理,比如备份、补丁很多时候都是固定、定期的处理,它的重复很高。如果我们能够把这些处理通过我们的程序把它标准化、流程化,把它定义到我们的系统当中去,由我们的系统自动调度、完成处理,那么运维管理效率会得到大幅提高,并且运维管理的发生误操作的情况也会杜绝。
系统构成信息的自动更新。以往在传统的IT系统当中做资源的管理可能很多都需要去做手动的管理工作,比如拓扑图之类的。在云环境当中会根据系统的应用状况,客户需求的状况,会发生非常频繁的系统构成的变更。如果不能够及时的掌握最新的系统状况,运维管理的操作会变得非常被动。通过与虚拟平台的对接,不但可以把最新的状况实时展示出来,还能自动更新,甚至基于自动更新业务需要,自动调度整个业务平台,调度虚拟架构,适合新的业务的需求。
对整体性能自动化的分析功能,NEC提供了一个性能分析的产品Invariant Analyzer,它在大规模系统当中,可以对整个系统所有的性能指标做一个综合的分析。
它的分析原理是:根据正常运行状态下的性能状况,去建一个数学模型,各个性能指标之间的逻辑关系,把模型建立起来之后,就会在日常的运维过程中,对实时的数据和数学模型进行比对,当发现性能信息不符合数学模型的时,就会找到发生异常的地方是在哪一台服务器的哪一个性能指标上面。
通过这种方式,可以自动分析出系统存在性能的地方是在哪里。以往没有这种处理方式,经常需要运维管理的专家、数据库专家、硬件专家去分析很长时间才能够找到、定位找故障点在哪里,而有了这个工具,用非常短的时间就能自动发现问题的位置。通过这些自动化的功能,通过这些可视化的功能,可以非常高效管理云环境小的IT系统。
第五、MasterScope所提供的综合管理功能。除了通过物理视角或者虚拟化的视角去分析,综合管理还可以通过业务视角对系统进行监控和故障的分析。
综合管理功能提供一个知识库的功能,通过知识库,可以确保服务级别的持续改善。故障发生之后去调查,调查之后解决,再进行恢复。如果加入知识库的功能,可以把运维相关的知识全都放在知识库里进行统一的管理。
首先,知识库当中会加入NEC在运维当中的相关经验比如包括Windows OS、服务器和Oracel之类的,在故障发生时,只要到知识库当中进行查询,可以得到与这个故障相关的指导信息,有了这个指导信息,去判断故障的原因,分析故障的解决办法来说,就会有一个相关的依据。跟实际情况进行比对,我们找到真正故障相关解决办法的时候,还可以把自己相关的一些经验丰富到或者更新到知识库当中去。围绕知识库的运维管理流程,可以通过知识库不断的改善整个运维的水平,甚至可以去实现当我们故障发生的时候,通过知识库相关的功能,实现故障的自动处理。
知识库的内容包括如何去监视这个系统,我们发现什么指标变动的时候,可以认为这个系统发生故障了,可以设置相关的过滤条件。第二、如何通报、把这个故障通报给谁、通过什么方式。
第三、故障相关信息有哪些,如果故障发生的时候,可以自动匹配,最后展示给管理员。
最后是故障恢复方法,这个方法可能自动记入到相关信息里面去,也可能是一个自动脚本。这样一个知识库的功能可以实现高效的运维,实现一个不亚于管理员个人能力的运维水平。
实现大规模分布式环境的统一管理,面向目标系统从几十台服务器多几十万台服务器,不同规模都可以支持。对于大型的系统通过管理服务器分层级的功能去实现。在上层的管理系统汇总下面所有相关的信息,并且可以在两层的管理服务器之间设立消息过滤的机制,只需要把上层管理员所关心的信息汇总上来就可以了。
用户权限管理功能,大型的IT系统运维管理系统当中,会涉及到不同的管理员,不同级别的人员,需要给他分配不同的权限。比如说某一些用户可以拥有完整的权限,某一些用户可能仅有监视的权限。通过用户权限的管理,可以防止一些误操作的发生,并提高整个系统的安全性。
操作审计日志管理功能,通过权限的管理,限定每一个工作人员所管理的范围,通过审计日志,会记录下来每一个管理人员他所做的所有操作,当问题发生的时候,可以通过这个审计日志追溯到这个操作由于哪一个管理员做了哪一个操作影响的,可以通过一个审计的管理。