借助HADOOP实现新浪微博的敏捷运维-信息化专区

借助HADOOP实现新浪微博的敏捷运维

作者：闫志坤编辑：闫志坤 2013-11-22 21:00 IT168网站原创

　　　【IT168 现场报道】2013年11月22-23日，作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会，2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者，以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

　　　Hadoop中国技术峰会由China Hadoop Summit专家委员会主办，由IT168、ITPUB、ChinaUnix协办，渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题，旨在通过开放、广泛的分享和交流，着力于促进中国企业用户提高应用Hadoop的能力和水平，降低Hadoop技术应用门槛和投资预算门槛，推广大数据的应用价值。笔者目前所在的是主题互联网大数据实践专题专场，下面为大家带来主题演讲的是新浪网研发中心系统架构师许杨毅，他演讲的题目是《借助HADOOP实现新浪微博的敏捷运维》，以下为许杨毅的演讲实录。

▲新浪网研发中心系统架构师许杨毅

　　解读新浪微博系统背后的DIP平台

　　对于新浪微博相信大家都耳详能熟，那么如此大的业务又是如何运作的呢?许杨毅表示，“在新浪内部有一个名为DIP的数据分析平台是基于 Hadoop、Hive 等软件所构建的大数据分析平台，主要用于新浪各种产品的日志存储，质量、性能数据的分析，监控数据分析等用途。”

借助HADOOP实现新浪微博的敏捷运维

　　同时许杨毅表示，“我们通过DIP平台来准实时/离线的搜集各个业务监控平面的指标，通过业务指标的模式分析，建立业务运行的健康和监控标准(这一平台在新浪内部被称为SinaBench)，再通过实时或者准实时对系统运行指标的多维提取(异常值、告警区间，多维分析的漏斗模型 )来进行业务异常状态的自动化发现，最后接入新浪的告警系统(SinaWatch)，DIP平台的建设已经历时3年。”

　　新浪微博敏捷运维基础DIP平台

　　新浪微博能够从众多微博中脱颖而出，许杨毅表示，“就是完全依托DIP平台(HADOOP, HIVE, HBASE,KAFKA)，新浪微博大家使用量都比较大，在国内应该也算数一数二的公共的服务系统，它的业务压力也是很大的，为此我们进行了微博服务平台运维的优化工程。”

借助HADOOP实现新浪微博的敏捷运维

对于项目的优化，许杨毅表示，“我们不仅要做微博服务质量方面的优化，而且还要做用户体验方面的一些优化工作，我们主要在以下两个方面，第一，怎样判断一个大型业务系统的运行状态。第二，针对这样一个大型业务系统你怎样做高效的故障管理。比如出了故障怎么响应? 因为它比较大型又服务终端客户，系统一定是复杂的、异构的，会给实际的运维工作或者业务系统的保障工作带来非常大的挑战。

　　新浪微博平台提升故障管理效率方法

　　对于新浪微博这么大的平台，故障管理效率显然十分重要，对此许杨毅表示，“我们微博服务平台有数万台各类设备，部署在全国多个IDC，是一个超大型的业务系统，在其上部署了非常复杂的各种业务逻辑架构，监控的对象有数万个，每个对象监控的指标有数个到数十个，因此我们对于故障管理的要求很高。”

借助HADOOP实现新浪微博的敏捷运维

　　对此新浪做了这些工作，首先建立适合业务分析的漏斗模型，其次简单的排序TOP-xxx选取指标是不够的，采用数据等高线作为特别的数据结构来存储排序后的指标。最后不单单看平均值，同一个指标监控的阈值是随着时间可变的。

　　对于提示故障管理的具体措施包括，自动发现各个监控平面和业务环节的异常后，利用这些异常事件来快速定位和解决故障的问题随之而来;利用到了DIP的大数据处理能力(HADOOP+图计算框架);通过业务数据，能够构建自身整体业务的全逻辑拓扑结构;自动建立故障事件的告警路径;可视化回溯分析，根据自身的需求，建立了半长期的结构化业务拓扑和系统运行下的实时拓扑。

▲IT168专题报道：http://www.it168.com/redian/Hadoop2013/

关注我们