信息化 频道

向复杂说“不”——管理软件智能化进展分析

    某游戏运营商目前在全国游戏玩家有100多万,且用户数量还在不断增加,该用户在全国20多个地区部署了游戏服务器,服务器总量达到2000多台。面对这样一个庞大的广域网络,有一个包括10几个工程师的团队负责运行维护工作。但是,仍然在管理工作中存在巨大挑战:当用户数不断增长时,运维工程师的工作越来越吃力,无法保证服务质量;不能满足对大量网络资源的同步监测,不能满足7×24的运行要求;被动式管理,在接到玩家抱怨和投诉的电话和邮件以后运维人员再去处理问题,已经影响到了玩家的情绪。

    通过成功实施先进的网管和系统管理软件解决方案,帮助该用户对游戏网络系统的运维带来了方便和好处,变被动管理为主动管理,实现了量化管理,保证了服务质量;实现了集中式的远程管理;完善的数据采集、分析、故障告警、记录和自动恢复功能大大方便了工程师对故障的处理机制,使得智能化管理变为可能。

    从这个例子中,我们可以感觉到用户在处理复杂问题时能够主动地简化问题并解决问题,而从管理方面来讲则是应用了智能化的特点。

    那么,究竟什么是“智能化”呢?

智能化的定义

    像其他许多新兴事物一样,智能化至今尚无统一的定义。这里,笔者结合自己的理解来定义管理智能化,当然,这些理解是比较狭义的。

    人类的自然智能伴随着人类活动处处时时存在,人类的许多活动,如解算题、猜谜语、讨论、计划,甚至驾驶汽车等等,都需要“智能”。而如果在我们的各项管理工作中,管理软件能够执行通常与人类智能有关的功能,如判断、推理、感知、规划和学习等思维活动,我们就认为该项管理具有智能化特征。

    CA公司Unicenter产品经理李世伟说,管理智能化就是将人脑中的经验提取出来,自动化地应用在管理工作中。从前面的案例中可以看到,管理软件就是利用众多管理员在实际工作中长期积累的经验,自动化的应用为管理员带来巨大的便利。

管理对象的丰富

    从某种意义上来说,管理智能化具有一定的整体性与复杂性,因此,我们首先分析一下智能化管理的对象。总体来说,为用户应用提供支持的整个IT基础设施都是智能化管理的对象。然而,随着用户应用需求的不断发展与提高,用户构建起来的IT基础设施已经变得越来越复杂,因此管理的对象也相应变得复杂起来。具体来说,用户应用流程中所涉及的部件都应该受到良好的管理,包括存储、网络、服务器以及应用等。VERITAS公司产品市场经理张衡介绍,每一部件对智能化管理都有着迫切的需要:每一部件都应该自动化地为用户应用提供所需资源,同时在微观层面上确保非常好的的性能。因此,应用性能管理(APM)也成为管理中一个重要环节。

     这样就对系统集成商提出了更高的要求,为了更好地满足用户需求,集成商不仅要将各部件无缝地集成在一起,更要使系统协调一致地为整个应用服务,而在调试系统方面就面临着巨大的挑战。

    一方面尽管所有厂商的产品都声称支持具有良好的互操作性,但是在实际项目中,尤其是结合用户的某些应用特定需求,往往会出现这样那样的问题。某省电信公司几年前开始采用A厂商业务运行系统,随着业务的不断扩大,存储系统远远满足不了需求,在存储系统扩建过程中发现与原业务系统在连调环节问题不断,最后不得不将原业务系统一起更换。

    另一方面,系统仅仅能够物理连接在一起勉强运行是远远不够的,用户需要的是一个高效的系统,一些资源管理软件提供了默认的初始值,这些都需要根据用户的实际情况进行优化,而这一过程有可能耗费很长时间。

智能化管理的层次化

    智能化分为多个层次,各层次所设计的内容都有所区别。李世伟向我们介绍说,管理大体分为:网元管理、集中管理以及业务服务管理。

网元管理

    网元管理是管理智能化的基础。对于上文提到的管理对象的各部件,都有各自的管理软件,所进行的即为网元管理。网元管理的对象是独立设备或者操作系统,一般为设备厂商所自带的管理软件,它的优点在于,能够针对管理对象进行深入细致的管理,比如,有些设备使用专有系统,甚至使用非标准的协议管理自己的设备,其中一些管理功能就很难被其他管理厂商所实现。网元管理的劣势是无法进行集中管理。

集中管理

    集中管理就是采用统一的管理窗口对系统中所有设备进行管理,集中管理能够向管理者提供一个更为全面的平台。集中管理并不是各网元管理的一个简单集中,集中管理将所有管理对象作为一个有机的整体进行管理。集中管理的管理对象要比网元管理更为复杂,对智能化的要求也较高。

业务服务管理

    业务服务管理是根据用户的应用流程,通过SLA(服务水平协议)进行分级化管理。业务服务管理建立起了一种面向用户业务及应用的管理模式,是网元管理与集中管理的进一步提升。业务服务管理建立一个管理模型,根据一定的优先级为不同的业务应用提供不同的管理。

    HP软件业务部技术经理干敏先生说,用户以前专注于某个硬件、某个具体应用的运行情况,而现在则只关心业务的整体运行情况,满足用户的这种管理需求只能通过业务服务管理。

智能化的各种体现

    经过多年的发展,众多管理软件在逐渐的增加智能化特性,为方便用户管理发挥了巨大积极作用。下面是一些基本智能化特性的集中体现。

基本智能特性

    自动发现并集中管理

    自动发现及集中管理要求系统能够自动识别网络设备、操作系统以及包括无线设备、网络拓扑在内的各种资源及其相互关系。这个功能使各企业能准确、方便地绘制出其IT基础架构的框图。它还能收集所有基础架构中各个部件的信息,并自动将设备状态的变化和事件记录到一个公共对象数据库中,提供历史和实时视图。

    阈值管理

    阈值管理是根据管理员长期的经验对各管理对象运行指标的设定。比如,在用户的一个集群系统中,某个CPU的负载超过一定数值(如90%)就经常造成系统性能的急剧下降,那么就可以将CPU的阈值设定在90%,如果超过阈值就将超出的负载转移到其他CPU上。

    监测及警告

    管理系统应该对所有管理对象的运行情况进行完全监测,并且在部件发生异常或者参数超出阈值范围提出警告。监测与警告包含三方面情况,一是要具有完全的监测能力,系统的任何变化都要有准确记录;二是要具有判断能力,迅速辨别出哪些情况出现了问题或者将要出现问题;三是有全面的警告方式,将管理中发生的问题及时通报给管理员。

    根源分析与事件关联功能

    不仅向管理员提供各类事件的报告,更要提供事件发生的根源分析。在系统运行过程中,当某一部件发生故障时,会产生数百个事件,事件关联功能会排列事件的顺序,指出具体故障的根源,管理员就可以避免跟踪多个相关的事件。事件关联功能可以有效地过滤大量事件,帮助管理员从繁杂的信息中判断出问题所在,并推荐解决问题的方案。

    基于策略的管理

    基于策略的管理是指从整体出发在系统运行之前统一制定管理策略,可以执行和维护针对所有资产的预先定义的策略,并在出现违反策略的事件或检测到故障时采取适当的措施。

    高级智能特性

    随着智能化的发展,有些系统如今具备了一些高级智能特性,有些涉及到智能控制、专家系统等理论。

    时间追溯功能

    时间追溯功能是指按照时间关系向前(历史性)和向后(前瞻性)对系统进行全面管理。历史性通过大量历史性数据的分析显示以前一段时间的运行状况,以便发现导致问题或瓶颈发生的事件序列。前瞻性一方面是根据系统运行情况得出前瞻性的趋势分析与预测,以便管理员能够提前采取必要措施;另一方面是要支持新环境、新标准,这要求管理系统在设计时必须对可能出现的新环境作出提前考虑,比如能够动态支持新协议(例如IPv6)。

    自动配置功能(Provisioning)

    自动配置是指依据预先制定的策略自动化地对各类资源进行分配。举例来说,某用户白天使用20台服务器处理繁忙的日间业务操作,使用另外5台服务器处理夜间业务,经常会出现日间业务压力巨大而夜间系统空闲的情况。如果具有自动配置的功能,就可以对硬件资源进行自动统一调度,轻松达到负载平衡。

    专家系统、知识库

    专家系统与知识库是智能控制理论中的先进知识,应用在管理工作中自然会起到巨大作用。但是,在这方面的应用一般水平较低。

    专家系统是一个智能计算机程序系统,其内部含有大量的某个领域专家水平的知识与经验,能够利用人类专家的知识和解决问题的方法来处理该领域问题。
  
    知识库是贮存以适当形式表示的从专家那里得到的关于某个领域的专门知识、经验以及书本知识和常识,它是领域知识的存储器。

    自学习系统

    学习是人类具有的一种重要智能行为。学习系统就是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样任务或相似的任务时,会比现在做得好或效率更高。

    同样是阈值管理,在应用自学习系统之后就大大提高了效率。如前文所述,各阈值是在长期的管理工作中逐渐摸索得到的,如果系统具有自学习功能就能够随着系统的运行自动调整阈值,从而达到更好的管理效果。

    智能化带来的好处

    应用管理智能化之后,用户可以获得巨大收益。

    某建行信息技术部在利用系统管理软件搭建起总控中心后发生了两大转变。首先,总控中心让IT服务支持过程标准化、规范化,提高了自动化处理能力,提升了运行管理水平,实现了知识经验的积累和共享,并且把工作量化,为考评提供依据;其次,总控中心使得以前被动和低效的管理转变为现在的主动和高效的管理,改变了IT部门以前的“救火队”角色,使IT部门由“急诊大夫”晋升为“保健医生”。此外,它还使系统资源合理调配使用,提高了故障应急处理能力。

    IBM Tivoli软件大中华区总经理孙志伟先生介绍说,智能化的好处是多方面的,概括起来大体有以下四点。

    可用性提高。当系统运行负载过大、宕机或者数据库性能存在严重问题时,智能化管理软件能够在问题未发生或者不严重时提前发出警告,并且给出事件的诊断,这些都能提高系统的可用性。

    安全性提高。提高安全性不仅需要防火墙、防病毒软件,一些内部的非法操作可能会对系统造成巨大的安全隐患,智能化的管理软件有一个统一的管理控制机制,针对不同应用通过各种安全管理模块进行统一管理,从而可以提高系统的安全性。

    优化管理。智能化管理不仅能够保障系统可靠运行,更能够对系统进行优化。比如存储设备的管理,有些价值不高的信息不值得存储在高端设备中,智能化管理软件可以将价格昂贵的高端设备分配给关键应用服务;智能化管理软件对数据库进行优化以后可以提高数据的存取速度。

    提高效率,提高投资回报率。一方面可以最大限度地有效利用现有资源,比如,某用户使用一些服务器处理白天负载较大的业务,而使用另一部分服务器处理夜间业务,在采用了自动调度软件达到了硬件的负载平衡。另一方面,与传统的管理方式相比,系统采用自动化管理大大提高了系统管理员的效率。

    干敏补充说,智能化管理保留了运维知识,不会因为人员的流失而被动,同时,智能化管理还保证了多个管理人员的运维效果是一致的,从而提供整体的管理质量。(计世网)
0
相关文章