信息化 频道

深度开发信息资源的思考与实践

  引言
  经过多年的信息化建设,很多烟草企业已经建立了比较完善的ERP、OA、MIS等基础信息系统。这些系统的共同特点是:面向业务人员日常的事务处理,对数据库进行增加、修改、删除等操作。系统运行一段时间后,在各类数据库中分散纪录了大量的历史业务数据。但对企业的管理者和决策者来说,并不是数据越多越好,他们更需要的是能够看懂、理解并从中受益的信息和知识,以此进行辅助管理和决策。此时,如何把数据转化为信息和知识,就成为信息化建设者关注的课题和任务,而目前DW(DataWarehouse,数据仓库)及相关技术已成为解决这一课题的有效工具。
    
  

  一、信息开发的三个层次
  如何把数据库中的数据转变为信息和知识?从信息资源利用的深度和相应技术开发手段的难度上从低到高依次表现为固定报表、多维分析和知识提炼三个层次。
   

  1.固定报表---低端信息开发
  即报表本身(样式和数据项)是定制且不可动态变化的,用户在系统中输入报表参数,服务器计算出相应的数据集并以固定的形式展现出来。
   

  传统的报表系统已经相当成熟,如:Excel、水晶报表、ReportingService等都已经被广泛使用。但是,随着数据的增多,需求的提高,固定报表的局限性日益显露出来,概括起来表现在以下三个方面:
    
  1)综合分析难
  业务系统多,数据分散在各类数据库中。历史数据(例如两年前的数据)往往被业务系统备份出去(归档),导致宏观分析、长期历史分析难度大。
  2)多维分析难
  业务问题经常需要多个角度的交互分析,而定制好的报表过于死板。例如,我们可以在一张表中列出不同大区、不同牌号香烟的销量,另一张表中列出不同大区、不同年龄段顾客的销量。但是,这两张表无法回答诸如"某大区中某年龄段顾客购买某牌号香烟的销量"等问题。
  3)挖掘规律难
  密密麻麻的表格中堆砌了大量数据,但难以反应数据背后隐含的潜在规律和趋势。如:什么客户价值最大?产品之间关联的程度如何?目前企业的经营状况是好、是中还是差?越是深层的规律,对管理者和决策者的价值越大,但越难挖掘。
   

  2.多维分析---中端信息开发
  针对宏观问题,通过OLAP(OnlineAnalyticalProcess,在线分析处理)从多个角度分析数据,可获得有价值的信息。如:我们在描述2003年4月份娇子X在北京地区销售额10万元时,涉及到3个维度:时间、产品、销区和1个度量变量:销售额,如图1所示。


图1用数据立方体进行多维度销售额分析

  除了时间、产品和销区,还可以有很多维度,例如客户的性别、职业、销售部门、促销方式等等,进一步,维度可以分为不同的层次;度量变量还可以有成本、利润等等。
   

  实际上,使用中的多维数据库MDD本质上就是一个N维超级数据立方体,在数学上对应一个N维项量:
  N维超级数据立方体=(维度1、维度2、维度3……维度N,度量变量)
   

  OLAP系统正是通过对组织后的N维超级数据立方体进行切片、切块、聚合、钻取、旋转等操作,以求剖析数据使用户能从多角度、多层面数据综合度观察分析数据。其架构分为四个部分:数据源、数据的存储与管理、多维数据库、前端工具与应用,如图2所示。


图2OLAP系统架构

  1.数据源
  是整个系统的数据源泉。通常包括企业内部数据和外部数据。内部数据包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据(结构化数据)和办公自动化(OA)系统包含的各类文档数据(非结构化数据)。外部数据包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;

  2.数据存储与管理
  是整个系统的核心。基于数据源,按照业务分析主题(如:销售、库存或财务等)对业务数据进行重新组织(抽取、清理和集成),形成数据集市(DataMart),确定其物理存储结构;同时组织存储相应的元数据(包括数据字典、记录系统定义、数据转换规则、数据自动加载频率以及业务规则等)。最终形成的数据仓库按"星型结构"模型(事实表+维度表)依然建立在关系型数据库(RDBMS)上。数据仓库中对数据的管理工作包括数据的安全、维护、备份、恢复、归档等。
   

  3.OLAP服务器
  对分析需要的数据按照多维数据模型进行再次重组(多维建模),形成多维数据立方体结构(Cube)。以支持用户多角度、多层次的分析数据。其具体实现方式有:ROLAP、MOLAP和HOLAP。ROLAP中基本数据和聚合数据均存放在RDBMS中;MOLAP中基本数据和聚合数据均存放于多维数据库(MDD)中;而HOLAP中基本数据存放于RDBMS中,聚合数据存放于多维数据库中。
   

  4.前端工具与应用
  数据立方体中的数据经处理后,多维地展现给用户。前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。
   
   

  多维分析系统构建案例:
  在实际构建中,可用Oracle9i搭建数据仓库,MicrosoftAnalysisService2000搭建多维数据库,ProClarity6.0作前端工具构建多维分析系统。
   

  3.知识提炼---高端信息开发
  针对分析和预测问题,源数据经过清洗和转换等成为适合挖掘的数据集。通过DM(DataMining,数据挖掘)选择一种或多种挖掘算法(模型),提炼出数据集背后蕴涵的规律(知识),这些规律可用来辅助决策。
  针对问题类型可利用的挖掘算法如表1所示:

  关联规则挖掘案例:
    美国的超市有这样的系统:当你采购了一车商品结账时,售货员扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?
  

  这句话决不是一般的促销。因为,你的购物车中有餐巾纸、大瓶可乐和沙拉,则系统算出86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。  
   

  每天,新的销售数据会进入系统,与过去N天的历史数据一起,被关联规则挖掘模型处理,发现当前商品之间的关联及关联强度。
   
   

  综上所述,固定报表系统已经不能满足日益增长的深层次信息需求了。以数据仓库及相关技术(OLAP,DM)作为解决上述难题的主要技术手段,通过建立DSS(DecisionSupportSystem,辅助决策支持系统)实现信息资源从数据到信息和知识的深度开发和利用。
   
   

   二、DSS的实施策略
  1.DSS的位置
  数据仓库是面向数据应用的数据管理技术,它提供了集成化、历史化的数据管理功能,支持综合性的数据分析。结合应用各类工具(OLAP、DM、前端展现等)构成DSS,以加强管理并辅助战略、战术决策。
  在企业信息化建设中,辅助决策支持系统处于高端应用,与其它系统的相对位置如图3所示:


图3DSS处于高端应用

   2.DSS在烟草工业企业中的应用方向
  基于数据仓库及相关技术建立的DSS应用领域广泛,按烟草行业《数字烟草发展纲要》中对建设数字工业企业的要求:建立三级数据中心;支持卷烟核心技术的突破;建立营销管理体系,其应用可定位在两个方向上:
  1)以提升产品研发能力和质量控制能力为目标。综合分析与产品内在质量相关的重多因素,从而达到提高产品科技含量,降低产品成本的目的。
  2)以增加商业机会为目标。辅助营销部门对大量市场和客户信息进行分析和预测,达到辅助经营决策(制定产品发展规划、新品研发计划及市场营销计划)的目的。
   

  3.DSS应用的约束条件
  1)历史数据
  基于数据仓库的OLAP和DM均依赖于数据仓库中组织的细节历史数据。这些数据的形成需企业的长期积累。
  2)业务驱动
  企业对信息的分析、预测工作有现实需求且已开展相关基础工作,为DSS的应用提供业务基础。
   

  4.构建DW的技术路线
  DW是DSS系统的核心。企业中,管理层次(用户)与DW(数据仓库)应用层次的对应关系如表2所示:

  从表2中的对应关系可以看出,数据仓库理想的建设路线是"自顶向下"逐层抽取,如图4所示:


图4 数据仓库理想的建设路线

  由于实施的工程性,对大型企业来说,要一步到位建立起大规模企业级数据仓库,项目实施周期长、难度大、收效慢,最终可能导致数据仓库华而不实。因此,宜采取"自底向上"滚动建设的技术路线,图5所示:


图5DW"自底向上"滚动建设的技术路线 

  5.当前DSS应用方向的定位
  按烟草行业《数字烟草发展纲要》中对建设数字工业企业的要求,结合企业当前的工作重点(产品研发和品牌营销),上述两类应用方向从根本上看均是追求的目标。但从DSS应用的约束条件、构建DW的技术路线及当前信息化建设的现状看,我们把DSS应用的切入点定位在第二类方向上,既数据仓库技术与市场营销相结合,建立BI系统(BusinessIntelligence,商业智能),辅助经营决策。
   

   三、初步实践
  当前,营销中心在信息化方面已有一定基础,但要发挥出数据仓库技术在市场和客户分析、预测方面的作用尚需夯实大量基础工作(如:理顺业务流程,定义营销中心部门级数据仓库同业务数据库的接口;集中、优化、统一管理现有业务系统中的分散数据),为营销中心部门级数据仓库的建设创造条件。因此,我们认为企业级数据仓库建设及应用的策略是:
   

  首先,以对营销业务实施BPM(流程管理)为切入点,建立以市场为中心的业务流程;将优化后的业务流程以软件的方式固化下来;分三个阶段构建基于营销中心部门级数据仓库的多维分析型应用(达到信息资源中端开发的应用层次),最终实现商业智能(BI),系统总体框架如图6所示。


图6营销信息系统总体框架

  1)数据收集层
  实现各销区调拨计划、销量、商业库存数据的及时收集和网上报送(日报、周报、月报),如:调拨计划信息需各区域按牌号、申请计划量、要求到货时间等进行填送。
   

  2)业务处理层
  依据购销合同,实现网上申报大区计划、审定大区计划、执行大区计划、执行状态查询、合同完成率统计,全面支撑营销业务流程中的各个环节。如:执行大区计划中的周计划平衡功能对区域计划中申报的品名、数量、要求到货时间等结合生产能力、库存量和购销合同进行调整后,转入开票、运输、到货确认业务流程各环节,并将整个执行过程中的状态信息直观地反馈给相关管理和业务人员。
  同时开发固定报表系统,以满足常规业务数据统计的需要。
   

   3)多维数据分析层
  通过BI实现对以上两部分积累的历史数据的多维统计分析,形成直观、明确的分析图表,帮助各销区管理层和决策层全方位把握市场状况并辅助决策。
   

  其次,在营销中心部门级数据仓库应用取得实效和经验的基础上,选择条件具备的其他业务领域(如:产品研发和质量控制领域等)逐一建立各部门级数据仓库和应用;
   

  最后,在各部门级数据仓库的基础上,最终形成企业级数据仓库和个人数据仓库及其应用。
   

   当前,企业BI的开发处于起步阶段,营销信息系统的数据收集层和业务处理层处于建设和完善之中,正在为下一阶段多维数据分析层的建设奠定着扎实的基础。
    
  结束语
  固定报表、多维分析和知识提炼是信息资源深度开发和利用的三个层面。随着需求的深入,越来越多的企业在固定报表的基础上,会进入多维分析和知识提炼的领域。它们的利用会给我们带来越来越明显的效益。需要指出的是:多维分析和知识提炼的目的是提供更多的决策支持价值,并不是取代固定报表。由于国内报表的样式复杂,难以进行深入的灵活定制,因此,对固定报表的查询仍占绝大多数,报表系统依然有其不可取代的优势,将会长期与多维分析和知识提炼并存。(e-works)

0
相关文章