【IT168 现场报道】2013年4月18-20日,第四届中国数据库技术大会(DTCC 2013)在北京福朋喜来登酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。
自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会,每届大会超过千人规模,云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等,是目前国内最受欢迎的数据库技术盛会。
在2013年中国数据库技术大会(DTCC)第三天的“数据分析与商业智能”专场,由金山数据库开发主管宋运奎分享他的话题《移动互联网下 DW/BI的转型 应运而生的金山快讯平台》。据了解宋运奎先生有6年数据库、数据仓库开发实施经验,曾先后服务于东南融通、金山软件等知名公司,对于传统数据仓库及移动互联网下DW/BI的开发实施有一定经验,擅长于数据仓库架构、模型设计,ETL开发。
BI并不神奇 数据是基础 技术是手段
随着技术的普及,数据的增加让企业现在都在寻求以数据促进业务发展的方法。所以现在看来,BI是帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。而提到DW的特征,宋运奎认为具备4种特性:面向主题的、集成的、相对稳定的、记录历史变化的。
为业务提供足够的技术支撑,需要很多数据相关的技术保证,宋运奎他的演讲中总结了几种常用的技术领域。
从数据仓库的实施来讲,清楚的规划每一步实施过程将会是项目成功的关键。同时,宋运奎先生还介绍了一些数据仓库的标准和传统的架构。
而在当前快节奏的互联网环境下数据更为复杂,宋运奎先生结合金山自己的特点介绍到,今天的金山的数据类型比较复杂,有实时、准实时、非实时的结构化与非结构化之分。前端也有不同的应用,因此处理的过程也在发生转变。
而具体到不同应用,结合西山居自己不同的场景宋运奎分享了一些模拟场景——网游维度模型。
数据仓库不是一日之功 目的导向的建设方法
宋运奎直言互联网公司的特点,结果导向、精细化的财务让IT投入也会相对精细,因此金山的数据仓库项目与很多传统行业中有很大不同。
对于数据仓库的建设,宋运奎则认为自己更加擅长ETL,结合自身经验他总结了“E-T-L”三个阶段所代表的不同的意义。
宋运奎认为数据仓库实施的重中之重 是ETL。引用业内一位资深架构师的说法:ETL之于数据仓库有如循环系统于人一样重要,数据平台的健康,新陈代谢都是归功于ETL;ETL任务的好坏直接决定数据仓库的数据质量,数据产出时间以及很大程度上是否能发挥数据的价值。
提到数据仓库实施的ETL 几种方法
第一种是借助专业的ETL工具实现;
第二种是SQL编程方式实现;
第三种是ETL工具和SQL相结合。
前两种方法各有优缺点,借助工具可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低难度,但缺少灵活性。SQL编程的优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种综合了前两种的优点,极大的提高ETL的开发速度和效率