【IT168信息化】为期三天(4月16日,17日,18日)的2015年数据库技术大会(以下简称大会)在京召开。此次大会是由IT168主办,已经连续成功五届,在前五届的基础上,为了更好的服务数据库技术人员以及爱好者提供交流平台,此次第六届大会如期召开,并且备受到行业数据库以及数据库从业者的广泛关注。大会以数据库作为基础,围绕大数据、商业智能、云计算等与之密切相关的热点技术话题展开探讨,旨在与会人员提供全面专业的知识以及交流平台。据了解,目前大会已经召开两天,在这两天中来自各行各业的企业DBA共同享受了一场丰富的精神盛宴。好戏连连、精彩不断,在今天(4月18日)的专场将带给我们同样精彩。
先让我们看一下《专场15中大数据-生态系统》的出场“阵容”。据记者的了解,本次专场的主持人是来自大数据领域社区活动家,亚信大数据高级顾问张涵成,“率领”来自Tech Leader of Kylin at eBay, Apache Kylin PMC Member & Committer李杨,百度大数据实验室吴海山,友盟公司任数据平台架构师吴磊,Shanghai Linux User Group创始成员之一王伟珣,共同为我们阐述大数据带来的非常好的实践。
▲更多信息登陆2015中国数据库大会直播页面(http://www.it168.com/redian/dtcc2015/)
Tech Leader of Kylin at eBay, Apache Kylin PMC Member & Committer李杨为我们带来了《eBay开源新数据库技术Kylin》精彩的主题演讲。李杨指出,麒麟是基于Apache做的一个开源项目,麒麟是定位于HADOOP之上的OLAP引擎,它的定位是在百亿级量上做到秒级SQL查询。对于eBay这样的巨头而言拥有很多的数据,在处理这些数据遇到的挑战是怎么用BI把数据挖掘出,如果采用传统的BI性能比较差,支持力度不是很高,对于长期运营来讲不划算,对于eBay而言想要在HADOOP基础上做交互式的应用,同时从产品的角度来看,市场上的开源产品比较差。
在这样的背景下,eBay开始着手做麒麟项目。麒麟设计目标是能够支持百亿数据,它可以和传统的BI工具做集成,能够提供交互式的查询能力,能够Approximate Query Capability for distinct count (HyperLogLog) ,Security capability to set ACL at Cube/Project Level 。现在麒麟已经在eBay得到了很好的应用,能够处理大量的数据。麒麟除了eBay自己应用以外,还有像百度这样的巨头也在使用麒麟,其它公司如京东等将陆续开展使用麒麟。
▲Tech Leader of Kylin at eBay, Apache Kylin PMC Member & Committer李杨
据记者了解,Kylin(麒麟)是由eBay研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台。该平台为Hadoop提供了标准SQL接口及多维分析能力,支撑TB到PB级别的数据,在百亿数量级别上能够带来秒级甚至亚秒级的查询性能。该平台已经在eBay内部正式运行并处理着相当大的数据,并在2014年10月初开放给了开源社区。Kylin为Hadoop生态圈带来了OLAP能力,是目前整个生态圈急需的一块,弥补了Hadoop之上商业分析的空缺。其全面的平台体系使得使用者可以快速搭建并运行,其与商务智能分析软件的集成,例如Tableau,为分析人员提供了快速访问和分析Hadoop数据的能力。一经推出,在业界或得了非常高的评价和关注。
提到大数据处理,作为互联网巨头百度同样也拥有海量的数据,来自百度大数据实验室吴海山就《百度时空大脑-百度时空大数据背后的智能分析引擎》作为了主题分享。吴海山指出百度时空大脑主要是挖掘时空数据背后的规律。主要分为四个方面移行行为,社交行为,迁徙行为,集群行为。
移动行为:通过用户出行轨迹挖掘用户出行规律,实行个性化、预测性位置服务。
社交行为:基于时空数据的身份识别,社交关系推断,保护用户隐私,为百度产品打造社交基因。
迁徙行为:基于人口流动的城市计算、复杂系统研究,应用于智慧城市。
集群行为:百度公益大数据,通过百度大数据进行公共安全,灾后评估,人口贩卖检测等挖掘。通过百度的行为分析,未来能够预测出用户的出行点,从而最终为用户提供更好的服务比如用户想要去某一个地点,能够通过搜索,准确预测出用户的出行,为用户提供更好的服务,百度的最终目标是打造智能人与服务的连接。
来自友盟公司数据平台架构师吴磊在DTCC上详细的介绍了《移动应用分析平台中的开源大数据系统实践》,他指出,数据是移动互联网的主旋律。友盟是成立于2010年4月的一家专注移动应用分析平台,目前拥有52万app,处理的数据接近2PB。友盟移动应用分析平台在数据采集部分,在成立初期采用基础架构,但是随着互联网的发展过去的传统的架构不够使用,现在已经迁移到使用finagle server,Resque换成Kafka。在数据传输部分采用了数据总线(Kafka)。在数据处理层面,对于实时数据通过Storm实现,而离线数据则采用ElepantBrid、 ProtoBuf、 Compress等。
在数据存储层面,实时数据采用MongoDB,MongoDB能够提供横向扩展功能。对于离线数据而言,它的特性是数据量特别大,因此采用HDFS存储和Hbase存储两种方式。HDFS 存储主要存储的是日志,已经达到PB级规模。
对于Hbase,吴磊详细的介绍了使用经验。Hbase如果是采用默认随机读的优化,那么它的性能是不够的, 所以,需要进行优化才能进行随机请求的时候才能够有很大的性能提升。
变随机读为顺序读在方面通过采取全局排序的方式,能够提高效率和运行时间。
除以上遇到问题以后,在数据聚合、RowKey设计、参数调优、表预先切分、客户端使用参数调优、大批写使用Bulk Load、中间数据和小表使用文件更优等方面都需要进行调优。
在实际的工作中,吴磊也详细的介绍了Hbase的使用教训主要是三个方面:第一,重视运维;第二,关注官方动态;第三,谨慎使用新特征。
Shanghai Linux User Group创始成员之一王伟珣介绍了《HAWQ MPP SQL for HDFS of Hadoop 基于Hadoop原生HDFS的大规模并行SQL》 主题发言。
▲Shanghai Linux User Group创始成员之一王伟珣
他指出,HAWQ仍然是一个标准的实现,具有很大的优点,能够支持Apache Hadoop原生HDFS的SQL大规模并行引擎(MPP SQL),GPFX External Tables 接口,使用SQL透明访问Hadoop上各类数据HDFS, HBase, Hive,Parquet格式等等,还可以还支持SQL透明访问NFS,HTTP其他格式的数据(可自定义)Performance and Scalability,Parallel Everything,Dynamic Pipelining,High Speed Interconnect(基于UDP),HDFS access with C++ libhdfs3,Co-Located Joins & Data Locality,Partition Elimination(支持静态动态表分区),Higher Cluster Utilization,Concurrency Control(资源作业优先级调度)。