【IT168资讯】业务需求与挑战
如果一台服务器宕了10个小时,IT管理员会收多少短信呢?有些系统会根据采集频度来发事件,如果5分钟采集一次,那IT管理员将接收120条短信。IT管理员一边得解决问题,一边还得接系统监控这方面无谓的骚扰。
如果一个企业拥有200台设备(包括网络设备,主机等),如果平均一台设备一天要发5条事件,那IT管理员一天要看1000条事件,甚至接收1000条短信。换成任何人,在这种情况地下,都处理不过来。IT管理员需要寻找他需要的事件,就好像海底捞针。
一台设备出现问题,连续发了好几条事件,但是IT管理员必须在众多的事件里头去搜和手工关联。关联的事件一旦多,根本做不到。
现在管理人员将会迷失在繁杂的事件库当中,常会犯捡了芝麻丢了西瓜的错误。事件管理的关键点就在企业需要管理手段能够从大量的事件中去除那些毫无意义的垃圾事件,并找出对于信息管理真正有用的事件,并快速解决问题,恢复系统的正常运营。
我们给客户带来什么
提供根本原因分析,快速发现故障根源,缩短恢复事件,最大挽救经济损失
比如:以下的核心设备出现故障后,将会引发连锁反应,导致其他的应用或者主机全部都不可访问,而这个时候,管理人员看到的将是大量的故障事件。管理人员,很难迅速从这样大量的事件中,发现真正的故障根源。
现在,通过Mocha BSM的根本原因分析,就可以快速的分析出罪魁祸首,帮助管理人员在第一时间,将核心设备的故障进行恢复,而后其他应用和主机系统将不治自愈,降低企业的经济损失。
提供Flapping技术,减少误报事件,提高工作效率
虽然很多管理软件提供了策略机制,管理人员可以通过设置设备监控的告警阈值,一旦设备指标超过了规定的阈值,才会产生告警事件。然而,在监控的过程当中,设备时常会因为偶然的波动,在超过规定的阈值后,迅速的恢复正常状态。这种“昙花一现”的现象不值得关注,但是往往会给IT管理员误报,耽误了管理人员的宝贵时间。
现在我们通过Flapping技术,设置一个确认数值。比如我们设置了一个Flapping=3的数值,一旦在一个时间段内,连续超过严重阈值3次,系统就会发事件和发报警,避免了无谓的误报。
事件关联
如果没有事件关联的功能,如果一台设备出现问题,相关的事件将会撒落在事件管理的各处,就如以下图所示:
通过关联事件功能,系统会把相关的事件组织在一起,达到:
• 一条事件
• 一条报警
• 一个列表展现
提供自动压缩资源可用性事件,减轻管理人员工作量
为了提高管理人员效率,我们还提供了自动屏蔽重复故障事件功能,减少事件的不必要可用性报警事件。
例如,设备宕了10个小时,IT管理员只会收到一条事件,Mocha BSM的事件压缩功能把数十条重复性事件压缩至一条。