信息化 频道

全局掌控预防为主 人民日报IT运维实践

  【IT168 信息化】

  近日,以“'全景·灵动·云'”为主题的,华胜天成Mocha BSM Visto产品发布全国巡展在京启动,发布会上来自人民日报社技术部运行管理处副处长居晓军就人民日报社的IT运维管理实践作了分享,IT168记者就居晓军人民日报的IT运维实践做了相关的整理报道,以飨读者。

  《人民日报》的IT运维之路

  众所周知《人民日报》是中国知名大报,《人民日报》是日报,要求每天按时出报,很显然对IT运维要求是非常高。

  《人民日报》信息系统总体架构包括硬件支撑平台,也就是包括网络、主机、数据库、存储、业务支撑平台,大致分为新闻采编中心、办公管理中心、数据中心。报社的系统是这些在十多年中陆续建设的,因此选用的厂和产品也是种类繁多的,目前我们的操作系统包括ax4.3,Solaris,Windows2003,中间件包括J2ee,iis,交换机 是思科和华为产品,我们还有安全设备,网络结构我们报社有一个特点,各个部门办公室它是分散在一个大院的不同楼宇,因此网络结构是一个新型结构,各个楼宇都有自己的交换机,而且每个楼宇各楼层有自己的楼层交换机。

全局掌控预防为主 人民日报IT运维实践
▲人民日报技术部运行管理处副处长 居晓军

  据居晓军介绍,《人民日报》的信息系统具备以下几个特点:

  一、是业务系统数量较多,实时性强;

  二、是主机和应用种类比较多;

  三、网络系统比较复杂,设备分散不集中;

  四、业务对IT系统要求极高;

  五、报社的信息系统发展比较迅速。

  IT现状以及IT运维的问题

  一、系统复杂,规模大,上层是各种业务系统,中间是各种平台操作系统还有各种数据库,顶层又有网络安全系统,因此对管理人员的要求也是非常高的,要求每个管理员既要管理业务系统,还要精通服务器管理、数据器管理、网络安全管理,还有系统出现问题时,要在很短时间内找到问题,并解决问题,运维的压力是非常大的。

  人民日报社技术部有50个人,其中有30多个人是技术人员,运维工作是24小时不间断工作,IT运维人员除了要担负夜间出报系统运维工作,还要担负白天办公系统、财务系统等其他业务系统,那可以说以现在的人手维护好这么大规模的一个IT系统,在体力上和心理上压力都是可想而知的。

  二、是要从整体角度把握系统运行状况,要分析哪里存在隐患,比如这一时刻系统所有服务器CPU压力、内存情况、数据库的访问数量,还有各个交换机甚至具体到某个端口数据流量的统计、分析。人工去完成这样的工作是很难的,还比如某业务系统反映速度慢了,如果要想找到系统的瓶颈,到底是CPU、内存,还是存储或者是并发访问机制,这些都是遇到的难题之一。

  三、管理员少,虽然也采取了值班多次巡检制度,但没有好的自动化监控手段,发生故障实施程度比较低,还会接受用户的反馈。比如用户反映每个页面打不开,这时管理员才会去解决问题,但是这种被动局面,我们不希望发生的。我们的目标是在用户反映之前发现问题、解决问题,让用户感觉不到系统出现过故障,这样才算是一个比较好的运维服务。

  四、提高故障定位的准确度,要缩短解决故障的时间,因为系统比较复杂,服务器、交换机数量比较多,甚至有些设备还是十年前的产品,因此发生这个故障也是在所难免的。在发生故障以后,如何在最短时间内从200多台服务器、交换机的几千个关键指标中,迅速找到故障所在,是我们最迫切要实现的目标。比如曾经发生过某次故障,采编系统无法登陆了,这时候系统管理理人员首先要检查是否是页面服务器发生故障,然后再检查IS、Sybase数据库,还有各楼层交换机,对这些因素进行排查,一圈下来需要耗时半个多小时。

  因此,我们必须用先进技术手段来全方位的运维水平,也就是全方位、全地域、全天候、全功能、高质量的、主动式自动监控管理,实现我们的要求,这是运维目标。根据需求分析,2009年我们对业务系统、监控软件进行市场调研,发现有不少软件、硬件满足需求,但是经过比较,我们认为在很多方面摩卡系统管理软件具有一定的优势,经过系统测试,我们取得了比较良好的效果,然后我们决定部署。

  针对于这些人民日报社IT运维的现状,居晓军指出,早在2010年 4月在《人民日报》开始摩卡业务系统部署,经过一个月安装测试,实现了摩卡业务管理系统对报社全业务系统,包括100多台服务器、60多台网络IT安全设备,还有数据库,经过三个月运行,系统运行良好,在2010年8月通过验收,摩卡的业务管理系统主要实施五个模块:

  一是网络监控模块;

  二是主机和数据库管理;

  三是时间响应管理;

  四是业务服务管理;

  五是机房监控及报警管理。

  实施效果

  实现监控界面的图形化,把监控对象比较抽象的各种关键指标用图形或者表格的形式表现出来,简单易懂,一目了然,提高了管理效率。

  在数据库方面,因为我们比较关注数据库的连接时间,这直接影响到用户的使用,如果连接时间超过一秒,用户感觉会比较慢。我们可以看到,在7天内最大连接时间没有超过150毫秒,而且当前连接时间已经有16毫秒,用户感觉速度应该是比较快、比较正常的。

  其次是实现了将服务器、数据库等设备的性能,还有变化趋势用图像、图表表示出来。对服务器等设备实现监控,只是运维工作的开始,而不是全部,运维工作要想做得好,就要做到从全局掌控,能够准确排查出问题,进而能达到提前预防的目标。

  日常运维过程中出现故障,及时准确定位的效果。出现故障不可怕,那么可怕的什么?居晓军认为, 在IT运维中可怕的是不知道故障发生了或者找不到故障是什么引起的,进而造成问题扩大化。

  针对这一问题,人民日报社是这样解决的,我们把所有关注的主机放到一张雷达扫描图里,如果主机宕机了,在这张雷达图里会显示成一个红点,运维人员会立刻接到短信通知,马上进行处理,可以说有了这个功能,运维人员的心里会踏实一些。

  最后一点,是我们做到了换位思考,从用户体验出发,提高服务质量。系统好不好用,速度快不快,谁最有发言权?不是系统管理人员,而是用户。我们报社各业务系统都采用BS模式,用户工作时浏览器与服务器的享用时间非常重要,直接影响到用户感受。项目实施以后,我们实现了可以用直观的图像方式,从用户角度展现我们提供的IT服务质量,通过模拟用户登陆页面,将这个环节所有的时间进行统一分析,还可以清楚知道用户从登陆开始到进入系统总共用了多长时间,哪些时间是最影响用户体验度,进而想办法加以改进,提高服务质量。

  总的来说,系统在人民日报社的实施实现我们的预期目标,全局掌控,预防为主,详细分析,排查瓶颈,及时定位,快速处理,协同配合,有效提升人民日报应用管理水平,增强技术支撑和保障能力。

  对于未来,为了更好提供更优质运维服务,在现有基础上我们准备做如下几件事情: 首先,将单机展示改为多屏和多窗口展示,建立集中监控中心以及更强大业务监控系统,不断提高运维管理水平。

0
相关文章