【IT168 现场报道】2013年4月18-20日,第四届中国数据库技术大会(DTCC 2013)在北京福朋喜来登酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。
自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会,每届大会超过千人规模,云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等,是目前国内最受欢迎的数据库技术盛会。
在2013年中国数据库技术大会(DTCC)第三天的“数据分析与商业智能”专场,来自人人网基础架构部的严岩为大家解密人人网数据服务平台的应用。面对人人网日益增长的数据量,以及产品迭代产生的繁杂数据需求,单纯的依靠某一种技术很难给出完整的解决方案。 人人网的技术团队通过分析数据生命周期,进而划分了不同类型的需求,并使用Hadoop,Mysql,Storm等技术,构建了多种数据分 析与服务平台。同时还搭建了一系列的基础服务,统一解决数据收集、同步、存储的优化问题。
过去的人人网的数据服务平台——基于日志的数据分析
数据库领域的一个核心的话题是数据到底有什么作用?到底如何通过数据能提供哪些服务?这就要了解用数据干什么。严岩给我们总结了一些常见的应用:
·报表:最常见,最浅层次的数据需求
·Ad-hoc:人和系统都可能是用户,较随意,较浅层的分析
·中间数据源:原始的数据服务
·数据挖掘:深层次,定制化
·推送:实时化
无论是从原始的传统方式去手工的商业智能,还是初步的基于技术的而到底如何衡量这个数据服务的KPI呢?正确性、延迟、吞吐、灵活性都是考核数据服务的关键所在。
从数据产生到数据被消费的过程中延迟,第一解决的原始阶段从产生到存储,虽然要做一些工作但是并不能直接产生价值,第二阶段是主数据的建模阶段,这个阶段要做的事情会有很多,如建立数据模型等但是仍然不能变成人类可读的数据,这就是第三阶段可读、可被消费的阶段。
▲严岩分享他对数据延迟的理解:从数据的产生到可被消费所消耗的时间
经过人人网的数据服务框架图,对不同的业务部门提供了不同的服务。包括准实时的、离线的和Streaming三种方式
基于日志的分析人人网所提供的功能虽然看似并无太大差异,但是仍然蕴含着很多特点。支持动态扩容、推拉结合、灵活的配置性为后期的维护和操作带来巨大的帮助。而对于性能上的要求,单机70M/S的效率和对于集群的HDFS和网络的支持让这个平台的性能得到很大的提升。这个平台的上的真实的案例,严岩介绍了人人网的包括EDM等的案例。