来自友盟公司数据平台架构师吴磊在DTCC上详细的介绍了《移动应用分析平台中的开源大数据系统实践》,他指出,数据是移动互联网的主旋律。友盟是成立于2010年4月的一家专注移动应用分析平台,目前拥有52万app,处理的数据接近2PB。友盟移动应用分析平台在数据采集部分,在成立初期采用基础架构,但是随着互联网的发展过去的传统的架构不够使用,现在已经迁移到使用finagle server,Resque换成Kafka。在数据传输部分采用了数据总线(Kafka)。在数据处理层面,对于实时数据通过Storm实现,而离线数据则采用ElepantBrid、 ProtoBuf、 Compress等。
在数据存储层面,实时数据采用MongoDB,MongoDB能够提供横向扩展功能。对于离线数据而言,它的特性是数据量特别大,因此采用HDFS存储和Hbase存储两种方式。HDFS 存储主要存储的是日志,已经达到PB级规模。
对于Hbase,吴磊详细的介绍了使用经验。Hbase如果是采用默认随机读的优化,那么它的性能是不够的, 所以,需要进行优化才能进行随机请求的时候才能够有很大的性能提升。
变随机读为顺序读在方面通过采取全局排序的方式,能够提高效率和运行时间。
除以上遇到问题以后,在数据聚合、RowKey设计、参数调优、表预先切分、客户端使用参数调优、大批写使用Bulk Load、中间数据和小表使用文件更优等方面都需要进行调优。
在实际的工作中,吴磊也详细的介绍了Hbase的使用教训主要是三个方面:第一,重视运维;第二,关注官方动态;第三,谨慎使用新特征。
Shanghai Linux User Group创始成员之一王伟珣介绍了《HAWQ MPP SQL for HDFS of Hadoop 基于Hadoop原生HDFS的大规模并行SQL》 主题发言。
▲Shanghai Linux User Group创始成员之一王伟珣
他指出,HAWQ仍然是一个标准的实现,具有很大的优点,能够支持Apache Hadoop原生HDFS的SQL大规模并行引擎(MPP SQL),GPFX External Tables 接口,使用SQL透明访问Hadoop上各类数据HDFS, HBase, Hive,Parquet格式等等,还可以还支持SQL透明访问NFS,HTTP其他格式的数据(可自定义)Performance and Scalability,Parallel Everything,Dynamic Pipelining,High Speed Interconnect(基于UDP),HDFS access with C++ libhdfs3,Co-Located Joins & Data Locality,Partition Elimination(支持静态动态表分区),Higher Cluster Utilization,Concurrency Control(资源作业优先级调度)。