信息化 频道

简单化 自动化 IT运维管理的新支点

  第三、实现IT系统的可视化管理

  运维人员在云环境中对整个系统进行管理首先要判断的就是网络的拓扑结构图,产品提供的网络拓扑可视化功能,首先会自动发现网络中所存在的设备包括网络设备服务器、存储等等,并且自动展示各个设备之间的拓扑关系。可以根据这些设备物理存放的实际位置,按照层级展示,可以按照地域的分布状况,可以按照楼层的分布状况甚至按照机架的位置。还可以统一管理不同厂商各种各样的网络设备和服务器,在我们的网络拓扑中做一个统一的管理。

  同时还可对虚拟环境,包括虚拟机、底层的虚拟平台,通过与不同厂商架构的对接,可以实时掌握虚拟架构当中发生动态变化的状况。当虚拟环境根据业务的要求,在不同物理架构之间进行迁移时,可以实时掌握迁移状况,并且通过一个图形化的界面展示出来。除此之外,还可以自动化的调度虚拟平台的功能。

  系统性能的可视化管理,管理人员日常工作当中更关心的是整体的系统性能状况如何,首先可以通过产品展示出网络设备、服务器,甚至于应用程序详细的性能详细,通过这些性能详细的图形化展示,还有预值的监视,可以分为两级对预值进行监视,可以实时掌控系统性能的状态如何,并且通过数据定期输出的功能,把所监控到的性能信息输入到一个数据库当中,为我们创建性能报表做出相关的准备。

  第四、实现IT系统运维自动化。在MasterScope系统中,很多的运维处理,比如备份、补丁很多时候都是固定、定期的处理,它的重复很高。如果我们能够把这些处理通过我们的程序把它标准化、流程化,把它定义到我们的系统当中去,由我们的系统自动调度、完成处理,那么运维管理效率会得到大幅提高,并且运维管理的发生误操作的情况也会杜绝。

  系统构成信息的自动更新。以往在传统的IT系统当中做资源的管理可能很多都需要去做手动的管理工作,比如拓扑图之类的。在云环境当中会根据系统的应用状况,客户需求的状况,会发生非常频繁的系统构成的变更。如果不能够及时的掌握最新的系统状况,运维管理的操作会变得非常被动。通过与虚拟平台的对接,不但可以把最新的状况实时展示出来,还能自动更新,甚至基于自动更新业务需要,自动调度整个业务平台,调度虚拟架构,适合新的业务的需求。

  对整体性能自动化的分析功能,NEC提供了一个性能分析的产品Invariant Analyzer,它在大规模系统当中,可以对整个系统所有的性能指标做一个综合的分析。

  它的分析原理是:根据正常运行状态下的性能状况,去建一个数学模型,各个性能指标之间的逻辑关系,把模型建立起来之后,就会在日常的运维过程中,对实时的数据和数学模型进行比对,当发现性能信息不符合数学模型的时,就会找到发生异常的地方是在哪一台服务器的哪一个性能指标上面。

  通过这种方式,可以自动分析出系统存在性能的地方是在哪里。以往没有这种处理方式,经常需要运维管理的专家、数据库专家、硬件专家去分析很长时间才能够找到、定位找故障点在哪里,而有了这个工具,用非常短的时间就能自动发现问题的位置。通过这些自动化的功能,通过这些可视化的功能,可以非常高效管理云环境小的IT系统。

  第五、MasterScope所提供的综合管理功能。除了通过物理视角或者虚拟化的视角去分析,综合管理还可以通过业务视角对系统进行监控和故障的分析。

  综合管理功能提供一个知识库的功能,通过知识库,可以确保服务级别的持续改善。故障发生之后去调查,调查之后解决,再进行恢复。如果加入知识库的功能,可以把运维相关的知识全都放在知识库里进行统一的管理。

  首先,知识库当中会加入NEC在运维当中的相关经验比如包括Windows OS、服务器和Oracel之类的,在故障发生时,只要到知识库当中进行查询,可以得到与这个故障相关的指导信息,有了这个指导信息,去判断故障的原因,分析故障的解决办法来说,就会有一个相关的依据。跟实际情况进行比对,我们找到真正故障相关解决办法的时候,还可以把自己相关的一些经验丰富到或者更新到知识库当中去。围绕知识库的运维管理流程,可以通过知识库不断的改善整个运维的水平,甚至可以去实现当我们故障发生的时候,通过知识库相关的功能,实现故障的自动处理。

  知识库的内容包括如何去监视这个系统,我们发现什么指标变动的时候,可以认为这个系统发生故障了,可以设置相关的过滤条件。第二、如何通报、把这个故障通报给谁、通过什么方式。

  第三、故障相关信息有哪些,如果故障发生的时候,可以自动匹配,最后展示给管理员。

  最后是故障恢复方法,这个方法可能自动记入到相关信息里面去,也可能是一个自动脚本。这样一个知识库的功能可以实现高效的运维,实现一个不亚于管理员个人能力的运维水平。

  实现大规模分布式环境的统一管理,面向目标系统从几十台服务器多几十万台服务器,不同规模都可以支持。对于大型的系统通过管理服务器分层级的功能去实现。在上层的管理系统汇总下面所有相关的信息,并且可以在两层的管理服务器之间设立消息过滤的机制,只需要把上层管理员所关心的信息汇总上来就可以了。

  用户权限管理功能,大型的IT系统运维管理系统当中,会涉及到不同的管理员,不同级别的人员,需要给他分配不同的权限。比如说某一些用户可以拥有完整的权限,某一些用户可能仅有监视的权限。通过用户权限的管理,可以防止一些误操作的发生,并提高整个系统的安全性。

  操作审计日志管理功能,通过权限的管理,限定每一个工作人员所管理的范围,通过审计日志,会记录下来每一个管理人员他所做的所有操作,当问题发生的时候,可以通过这个审计日志追溯到这个操作由于哪一个管理员做了哪一个操作影响的,可以通过一个审计的管理。

0
相关文章