引言
经过多年的信息化建设,很多烟草企业已经建立了比较完善的ERP、OA、MIS等基础信息系统。这些系统的共同特点是:面向业务人员日常的事务处理,对数据库进行增加、修改、删除等操作。系统运行一段时间后,在各类数据库中分散纪录了大量的历史业务数据。但对企业的管理者和决策者来说,并不是数据越多越好,他们更需要的是能够看懂、理解并从中受益的信息和知识,以此进行辅助管理和决策。此时,如何把数据转化为信息和知识,就成为信息化建设者关注的课题和任务,而目前DW(DataWarehouse,数据仓库)及相关技术已成为解决这一课题的有效工具。
一、信息开发的三个层次
如何把数据库中的数据转变为信息和知识?从信息资源利用的深度和相应技术开发手段的难度上从低到高依次表现为固定报表、多维分析和知识提炼三个层次。
1.固定报表---低端信息开发
即报表本身(样式和数据项)是定制且不可动态变化的,用户在系统中输入报表参数,服务器计算出相应的数据集并以固定的形式展现出来。
传统的报表系统已经相当成熟,如:Excel、水晶报表、ReportingService等都已经被广泛使用。但是,随着数据的增多,需求的提高,固定报表的局限性日益显露出来,概括起来表现在以下三个方面:
1)综合分析难
业务系统多,数据分散在各类数据库中。历史数据(例如两年前的数据)往往被业务系统备份出去(归档),导致宏观分析、长期历史分析难度大。
2)多维分析难
业务问题经常需要多个角度的交互分析,而定制好的报表过于死板。例如,我们可以在一张表中列出不同大区、不同牌号香烟的销量,另一张表中列出不同大区、不同年龄段顾客的销量。但是,这两张表无法回答诸如"某大区中某年龄段顾客购买某牌号香烟的销量"等问题。
3)挖掘规律难
密密麻麻的表格中堆砌了大量数据,但难以反应数据背后隐含的潜在规律和趋势。如:什么客户价值最大?产品之间关联的程度如何?目前企业的经营状况是好、是中还是差?越是深层的规律,对管理者和决策者的价值越大,但越难挖掘。
2.多维分析---中端信息开发
针对宏观问题,通过OLAP(OnlineAnalyticalProcess,在线分析处理)从多个角度分析数据,可获得有价值的信息。如:我们在描述2003年4月份娇子X在北京地区销售额10万元时,涉及到3个维度:时间、产品、销区和1个度量变量:销售额,如图1所示。
图1用数据立方体进行多维度销售额分析
除了时间、产品和销区,还可以有很多维度,例如客户的性别、职业、销售部门、促销方式等等,进一步,维度可以分为不同的层次;度量变量还可以有成本、利润等等。
实际上,使用中的多维数据库MDD本质上就是一个N维超级数据立方体,在数学上对应一个N维项量:
N维超级数据立方体=(维度1、维度2、维度3……维度N,度量变量)
OLAP系统正是通过对组织后的N维超级数据立方体进行切片、切块、聚合、钻取、旋转等操作,以求剖析数据使用户能从多角度、多层面数据综合度观察分析数据。其架构分为四个部分:数据源、数据的存储与管理、多维数据库、前端工具与应用,如图2所示。
图2OLAP系统架构
1.数据源
是整个系统的数据源泉。通常包括企业内部数据和外部数据。内部数据包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据(结构化数据)和办公自动化(OA)系统包含的各类文档数据(非结构化数据)。外部数据包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;