对于项目的优化,许杨毅表示,“我们不仅要做微博服务质量方面的优化,而且还要做用户体验方面的一些优化工作,我们主要在以下两个方面,第一,怎样判断一个大型业务系统的运行状态。第二,针对这样一个大型业务系统你怎样做高效的故障管理。比如出了故障怎么响应? 因为它比较大型又服务终端客户,系统一定是复杂的、异构的,会给实际的运维工作或者业务系统的保障工作带来非常大的挑战。
新浪微博平台提升故障管理效率方法
对于新浪微博这么大的平台,故障管理效率显然十分重要,对此许杨毅表示,“我们微博服务平台有数万台各类设备,部署在全国多个IDC,是一个超大型的业务系统,在其上部署了非常复杂的各种业务逻辑架构,监控的对象有数万个,每个对象监控的指标有数个到数十个,因此我们对于故障管理的要求很高。”

对此新浪做了这些工作,首先建立适合业务分析的漏斗模型,其次简单的排序TOP-xxx选取指标是不够的,采用数据等高线作为特别的数据结构来存储排序后的指标。最后不单单看平均值,同一个指标监控的阈值是随着时间可变的。
对于提示故障管理的具体措施包括,自动发现各个监控平面和业务环节的异常后,利用这些异常事件来快速定位和解决故障的问题随之而来;利用到了DIP的大数据处理能力(HADOOP+图计算框架);通过业务数据,能够构建自身整体业务的全逻辑拓扑结构;自动建立故障事件的告警路径;可视化回溯分析,根据自身的需求,建立了半长期的结构化业务拓扑和系统运行下的实时拓扑。

▲IT168专题报道:http://www.it168.com/redian/Hadoop2013/