信息化 频道

数据整合与BI应用的元数据标准化

    4. 元数据的类型

    (1)按元数据的类型分类

    关于基本数据的元数据:包括数据源、数据仓库、数据集市和应用程序管理的所有数据。

    用于数据处理的元数据          

    关于企业的组织结构的元数据

    (2)按对象级别分类

    概念级              

    逻辑级            

    物理级

    (3)从用户的角度分类

    通常把元数据分为技术元数据(Technical Metadata)、业务元数据(Business Metadata)和数据仓库操作型信息。

    ① 技术元数据

    包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。

    数据源信息:

    转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)

    目标数据的仓库对象和数据结构、数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容

    数据清洗和数据增加的规则

    数据映射操作

    汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和预定义的查询与报告

    访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等

    ② 业务元数据

    业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法及公式和报表的信息。主要包括:

    企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。

    多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。

    业务概念模型和物理数据之间的依赖关系:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

    支持面向业务概念的浏览、导航

    支持动态立即查询(Ad hoc)

    数据挖掘

    支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等

    ③ 数据仓库操作型信息

    例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法

    (4)从来源的角度分类

    工具产生的元数据  

    源提供的元数据

    企业模型

    系统导入的元数据  

    特定的用户产生的元数据

    (5)从元数据的目的角度分类

    一般可以通过一种更粗的方法来区分元数据:

    用于信息的元数据         

    用于控制的元数据

    (6)按照产生使用的时间分类

    根据获取或生成的时间,可以分为:

    设计时收集的元数据

    构建时生成的元数据

    l 运行时生成的元数据

    根据使用的时间,可以分为:

    l 设计时使用的元数据

    l 构建使使用的元数据

    l 运行时使用的元数据

    5 元数据的作用

    从元数据的类型和作用来看,元数据实际上是要解决何人在何时、何地为了什么原因及怎样使用数据仓库的问题。再具体化一点,元数据在数据仓库管理员的眼中是数据仓库中的包含了所有内容和过程的完整知识库和文档,而在最终用户(即数据分析人员)眼中,元数据则是数据仓库的信息地图。

    数据分析员为了能有效地使用数据仓库环境,往往需要元数据的帮助。尤其是在数据分析员进行信息分析处理时,他们首先需要去查看元数据。元数据还涉及到数据从操作型环境到数据仓库环境中的映射。当数据从操作型环境进入数据仓库环境时,数据要经历一系列重大的转变,包含了数据的转化、过滤、汇总和结构改变等过程。数据仓库的元数据要能够及时跟踪这些转变,当数据分析员需要就数据的变化从数据仓库环境追溯到操作型环境中时,就要利用元数据来追踪这种转变。另外,由于数据仓库中的数据会存在很长一段时间,其间数据仓库往往可能会改变数据的结构。随着时间的流逝来跟踪数据结构的变化,是元数据另一个常见的使用功能。

    元数据描述了数据的结构、内容、链和索引等项内容。在传统的数据库中,元数据是对数据库中各个对象的描述,数据库中的数据字典就是一种元数据。在关系数据库中,这种描述就是对数据库、表、列、观点和其他对象的定义;但在数据仓库中,元数据定义了数据仓库中的许多对象——表、列、查询、商业规则及数据仓库内部的数据转移。元数据是数据仓库的重要构件,是数据仓库的指示图。元数据在数据源抽取、数据仓库开发、商务分析、数据仓库服务和数据求精与重构工程等过程都有重要的作用。因此,设计一个描述能力强并且内容完善的元数据,对数据仓库进行有效地开发和管理具有决定性意义。

    更进一步,元数据是保障从各业务系统间数据整合工作顺利完成的重要手段和依据,是保证数据质量的关键,有效的元数据管理可以将不断变化的需求平滑地反映到数据仓库里来。在一个数据整合与BI应用项目中,保证元数据的统一、有效和规范的管理是整个项目成功的关键所在。那么在数据整合与BI应用项目过程不同阶段中的元数据到底该如何进行有效管理,其管理方式和途径都有哪些呢?在在数据整合与BI应用项目过程的不同阶段(如需求分析阶段、模型建立阶段、ETL阶段、数据挖掘和前端展现阶段),其存在形式或者管理的侧重点又有什么不同?元数据的管理应当是在数据整合与BI应用项目过程中要全程关注的焦点和核心;根据以往的经验,总感觉实际的项目中,虽然设计者在起初也会指出这一环节的重要性,不过真正的开发和实施者好像对这一核心环节并未没有形成清醒的认识,或者说没有科学的办法和工具来进行管理,只是以一些文件的形式对元数据进行记录,或许这也是在数据整合与BI应用项目在中国处于初级阶段的一个表现吧? ETL工具里面是自带的有元数据管理工具或者说一套办法,像一些工具里提供的repository就是便于ETL过程中元数据的管理的;不过在一个数据仓库项目里这部分只是一个阶段的元数据管理,并且也仅适用于这个阶段,事实情况是元数据时常要被应用在整个项目的每个阶段,所以,那么有没有可能把整个过程中每个阶段的元数据加以集中存储并有效管理?只有好的工具或者解决办法,才能便于用户理解和接受元数据,从而让用户接受承认数据仓库里数据质量的可靠,才会更快速地响应用户不断变化的需求,同时也便于项目的整体维护。

0
相关文章