信息化 频道

关键事件关联 IT运维有序发展

  【IT168资讯】案例背景 
 
  中国联通经过几年的信息化建设,已经建成了统一信息平台Portal、BPM、OA等多个应用系统。企业各个业务所需要的应用系统,极大地提升了企业的信息化水平,提高了工作效率,基本实现了无纸化办公。
 
  随着应用系统越来越多、越来越深入,员工的日常工作已离不开这些应用系统,应用系统的运行状况直接影响着员工办公、企业生产,因此确保应用系统的安全、可靠、稳定地运行成为系统维护部门越来越重要的工作。

  目前中国联通的门户系统供全国的联通员工办公使用。在门户系统维护工作中存在着如下问题:

  •系统需要人工监控,维护量巨大,并且无法一一监控到位,同时不能做到持续地实时监控。

  •忙于应对已发生的故障,被动响应式的工作方式,解决故障的效率低。

  •门户Portal无故宕机,很难及时发现和预见问题的发生。

  •问题出现后,很难快速、准确地找到根本原因。

  •找到问题后,缺乏流程化的故障处理机制。

  •支持过程总是被打断和干扰。

  •缺乏过程和变化的跟踪记录,如系统运行状况、主机配置变化、应用模块变更等。

  •不能及时地统计、分析系统状况,供领导决策。

  结果造成维护部门在出现问题时疲于应付、导致维护工作的满意度较低,这些问题一直困扰着IT维护部门。维护部门迫切的希望改变目前的这种状况。
 
  •方案介绍 

  中国联通应用监控系统是基于Mocha BSM产品,该产品为联通总部提供了统一的、集中的IT服务管理平台。系统包括系统监控、报表展现、决策分析等主要功能。

  系统监控功能

  通过对主机、平台、应用等方面的监控,实现了对门户系统在性能上、可用性上全方面的跟踪,能够及时发现故障、确定故障影响严重性并能定位故障根本原因。

  主机信息监控:提供对各系统所在的服务器进行实时监控。

  平台信息监控:监控WAS、WPS平台指标信息直接决定提供服务的性能,从根源上管理平台可用性。

  应用信息监控:经过多年经验汇聚,提取WAS应用层面重要指标,预防为主。

  数据库监控:监控Oracle数据库的多项指标信息,提供数据库服务的性能和可用性指标,从根源上管理数据库平台的可用性。

  - 主机方面

  监控运行于集团公司、全国门户、Web应用的20台UNIX和Windows主机,包括CPU、内存、硬盘、OS文件系统等运行状况的重要指标。

  监控时间频度为1分钟采集1次(监控时间频度可以自行配置)。 


 
  - 平台方面

  包括运行于集团公司门户平台监控的指标主要包括:

  → WPS平台

  •WPS服务可用性 •WPS数据库可用性 •LDAP可用性

  •WebSphere Portal •Server CPU利用率 •系统CPU利用率

  •JVM内存利用率 •系统内存利用率 •连接平均等待时间

  •Cell名称 •Node名称 •主机名

  •IP地址 •WpsPid •WpsHostPort

  •WpsContextRoot •WpsPersonalizedHome 

  → WAS平台

  •WebSphere AS可用性 •系统CPU利用率 •WebSphere AS

  •CPU利用率 •系统内存利用率 •JVM内存利用率 

  •活动的线程  •最大百分比 •活动线程利用率

  •Pid  •主机名 •IP地址

  •操作系统  •Cell名称 •节点名称

  •Server名称  •Cluster名称 •空闲内存

  •使用的内存  •分配总内存 

  - 应用方面

  全国门户应用:包括各省公司及全地市的应用系统,分布在两台服务器上。

  集团门户应用:包括集团公司的所有用户的使用的办公系统,分布在两台服务器上。

  应用监控的内容主要包括:

  •总部门户的全国应用  •全国门户的全国应用 •内容发布

  •省份园地  •网上调查与应用 •业务论坛BBS

  •工作流  •工作流待办 •工作流待阅

  •全国门户Portal  •全国门户WebSeal •总部门户Portal

  •总部门户WebSeal   

  监控时间频度:对于部分监控频度要求较高的指标为1分钟采集1次、对于部分监控频度要求较低的指标1小时采集1次(监控时间频度可以自行配置)。
 
  系统监控的其它功能点

  → 对于性能指标超标、宕机故障,通过手机短信、邮件直接发送给系统的管理员、维护人员及其他相关人员,在报警信息中明确哪台主机、哪个wps应用服务器、哪个应用、故障发生的时间、初步定位的故障原因等重要信息,方便维护人员了解故障并及时解决故障。
 
  → Mocha BSM对门户系统的主机、平台、应用等各方面的过程和变化进行全面的跟踪记录,如系统运行状况、主机配置变化、WPS平台配置变化、应用模块变更等都会自动记录到系统中,非常方便查阅这些动态信息,做到了可追溯,同时这也符合SOX法案的要求。
 
  - 数据库方面

  •实例可用性  •监听器可用性 •系统CPU利用率

  •Oracle DB CPU利用率  •系统内存利用率 •Oracle DB 内存利用率

  •PGA命中率  •库缓存命中率 •高速缓冲缓存命中率

  •物理读速率  •物理写速率 •数据块获取数/秒

  •一致性获取数/秒  •内存排序比率 •当前连接会话数

  •当前进程数  •登陆会话数/秒 •当前打开的游标数

  •当前锁数量   

  数据库管理的亮点数据库管理的亮点

  自动发现被监控的数据库,自动发现数据库上的数据库表和表空间,并对此进行监控。 对以下关键组件进行针对性的监控:数据库、表空间、数据文件、进程、操作系统的文件系统。 提供数据库配置的监控,提供70多个可用性和性能指标,Top 10 SQL语句排名 ,数据库可视化管理。
 
  报表展现、决策分析功能

  Mocha BSM系统对监控主机、平台、应用等方面收集到的数据提供了各种直观形象的图表和报表展现,提供了统计报告,提供了资源和指标走势,用以辅助分析和决策。

  通过Mocha BSM提供的查询、统计功能、分析功能,中国联通客户可以统计1个月以来发生的故障次数以及解决故障的时间等等,作为提高维护质量的基础数据。

  Mocha BSM能够根据历史数据,并对未来趋势进行预测,使决策更有依据。例如,能够根据磁盘每天的增长率来预测磁盘扩容的时间点,提前向管理员提示,为主机扩容提供依据,同时避免了人为的检查疏漏而面临磁盘空间达到临近100%产生的风险。
 
  •功能亮点 
 
  中国联合通信有限公司采用自行研发的摩卡业务服务管理(Mocha BSM)产品作为门户应用监控的解决方案。该方案解决了客户在实际工作中所面对的IT服务问题,该系统主要亮点如下:

  •实时监控主机、WAS平台、WPS平台、WEB应用等基础设施、应用等IT资源的运行状态、性能和可用性。

  •当监测到系统故障时,快速定位故障的主要原因,估算系统事件对业务的影响及其严重程度,并触发相应的故障处理流程。

  •简单操作的系统管理配置,方便地配置所监控服务器的信息,应用数据自动获取。

  •通过门户系统可以进行统一整合,实现单点登录SSO、统一授权和访问控制、集成展现和个性化等功能,使系统各模块之间实现无缝的协同工作,给IT服务经理、系统管理员、应用管理员等不同的用户群体和角色提供了可视化的工作平台。

  •提供了丰富的报表,提供了统计报告,提供了资源或指标走势,用以辅助分析和决策。

  •RTM监控定期的监控门户应用的可用性,可以在Web应用之上更细致的监控用户的登陆、点击的交换操作。使用户的体验过程的每个环节都得到有效的监控。
 
  •客户收益 
 
  目前Mocha BSM系统已经在中国联通总部正式上线使用并稳定运行。通过Mocha BSM对主机和应用系统的监控、管理,彻底改变了IT部门维护主机、应用系统的工作方式、解决了IT部门之前面临的种种问题。通过Mocha BSM的实施和使用:
 
  •从被动响应式的工作方式转变为主动服务。

  •主机系统维护的满意度不断提高。

  •通过自动的资源监控系统及时发现问题,避免重大故障发生。

  •问题出现后能够协助管理员快速找到问题原因,并及时地触发故障处理流程。

  •自动化的流程推送和提醒功能,在多任务工作环境下得心应手。

  •分析数据,展现报表,使公司领导更及时了解到相关信息。

  •使人员分工、IT预算等决策更有依据。

 

0
相关文章