【IT168 现场报道】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。
Hadoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。笔者目前所在的是主题互联网大数据实践专题专场,下面为大家带来主题演讲的是新浪网研发中心系统架构师许杨毅,他演讲的题目是《借助HADOOP实现新浪微博的敏捷运维》,以下为许杨毅的演讲实录。
解读新浪微博系统背后的DIP平台
对于新浪微博相信大家都耳详能熟,那么如此大的业务又是如何运作的呢?许杨毅表示,“在新浪内部有一个名为DIP的数据分析平台是基于 Hadoop、Hive 等软件所构建的大数据分析平台,主要用于新浪各种产品的日志存储,质量、性能数据的分析,监控数据分析等用途。”

同时许杨毅表示,“我们通过DIP平台来准实时/离线的搜集各个业务监控平面的指标,通过业务指标的模式分析,建立业务运行的健康和监控标准(这一平台在新浪内部被称为SinaBench),再通过实时或者准实时对系统运行指标的多维提取(异常值、告警区间,多维分析的漏斗模型 )来进行业务异常状态的自动化发现,最后接入新浪的告警系统(SinaWatch),DIP平台的建设已经历时3年。”
新浪微博敏捷运维基础DIP平台
新浪微博能够从众多微博中脱颖而出,许杨毅表示,“就是完全依托DIP平台(HADOOP, HIVE, HBASE,KAFKA),新浪微博大家使用量都比较大,在国内应该也算数一数二的公共的服务系统,它的业务压力也是很大的,为此我们进行了微博服务平台运维的优化工程。”

对于项目的优化,许杨毅表示,“我们不仅要做微博服务质量方面的优化,而且还要做用户体验方面的一些优化工作,我们主要在以下两个方面,第一,怎样判断一个大型业务系统的运行状态。第二,针对这样一个大型业务系统你怎样做高效的故障管理。比如出了故障怎么响应? 因为它比较大型又服务终端客户,系统一定是复杂的、异构的,会给实际的运维工作或者业务系统的保障工作带来非常大的挑战。
新浪微博平台提升故障管理效率方法
对于新浪微博这么大的平台,故障管理效率显然十分重要,对此许杨毅表示,“我们微博服务平台有数万台各类设备,部署在全国多个IDC,是一个超大型的业务系统,在其上部署了非常复杂的各种业务逻辑架构,监控的对象有数万个,每个对象监控的指标有数个到数十个,因此我们对于故障管理的要求很高。”

对此新浪做了这些工作,首先建立适合业务分析的漏斗模型,其次简单的排序TOP-xxx选取指标是不够的,采用数据等高线作为特别的数据结构来存储排序后的指标。最后不单单看平均值,同一个指标监控的阈值是随着时间可变的。
对于提示故障管理的具体措施包括,自动发现各个监控平面和业务环节的异常后,利用这些异常事件来快速定位和解决故障的问题随之而来;利用到了DIP的大数据处理能力(HADOOP+图计算框架);通过业务数据,能够构建自身整体业务的全逻辑拓扑结构;自动建立故障事件的告警路径;可视化回溯分析,根据自身的需求,建立了半长期的结构化业务拓扑和系统运行下的实时拓扑。

▲IT168专题报道:http://www.it168.com/redian/Hadoop2013/