信息化 频道

数据仓库解决方案

  一个传统典型的数据仓库系统的体系架构可以用下图加以描述:


 
图 传统典型数据仓库体系结构

  从上图可以看出,作为一个数据仓库系统,从数据源(一般为业务系统或其它外购数据)到最终展现给最终用户,中间需要经过一系列过程:

  抽取适当的数据源数据。数据仓库不是简单的生产系统的业务数据的堆积,简单地将生产系统的数据进行堆积的结果将会建成一个数据垃圾堆而不是数据仓库。我们只要取对现在和将来决策分析又用的业务数据进行积累就可以了。

  转化、清洗、重构等数据加工过程。因为数据仓库中的数据是面向分析和决策的,必须将业务数据进行重组才能达到这个目的。数据仓库中的数据结构往往与业务系统中的数据结构是有非常大差异的。

  建立海量、高效的企业级数据仓库。这个数据仓库必须能够在海量数据基础上服务于大量并发用户,并且无论是数据处理速度还是查询速度都应该满足一定的速度要求。依靠数据仓库应该能够完成设计范围内的一切分析。

  针对特定的分析主题,建立专门的数据集市。仅仅依靠数据仓库进行分析,其速度往往不足够快。为了使某些常用分析的速度足够快,有必要为这些分析问题分别单独进行进一步的数据重组和优化,即建立数据集市以加快分析速度。

  针对特定业务问题,使用特殊的数理统计算法进行数据挖掘。数据挖掘技术以建立在概率论和数理统计基础之上。特定的数据挖掘算法需要特定格式的数据输入,这种特定的格式往往不是数据仓库中直接具有的,需要大量的数据加工准备过程。模型挖掘、模型验证等过程也是一个需要反复进行的过程。另外,挖掘的结果——模型,必须作用到样本上——在样本上打分——才能真正发挥作用。

  元数据管理——整个数据仓库的所有描述性信息、管理信息、调度信息等都是数据仓库的元数据。一个数据仓库要想得到很好的持续性建设和被很好地使用,元数据管理是必不可少的。

  前端展现应用——最终用户的界面,这个界面必须简单易用且功能强大,必须具有良好的权限控制;两外,前端展现应用必须维护简单。

图 IBM数据仓库解决方案产品组成

  核心技术

  IBM数据仓库/商业智能解决方案是一个完整的端到端的解决方案,其核心技术包括:

  1、IBM DB2 UDB作为海量数据仓库引擎

  高扩展性:在单UNIX主机CPU扩展方面,TPC-C(OLTP)和TPC-H(Ad-Hoc Query),显示了DB2在扩展性方面的能力。

  在集群技术方面,采用Share Nothing的MPP体系结构,每个节点独享各自的硬盘空间,各个节点间通过网络交换数据。可伸缩性强,最多可以扩充到2000个节点。国外有512节点的实例。每个数据库中单个表的大小可以达到512GB*1000=500TB。在全球范围有许多TB级的数据仓库。

  高性能:DB2的基于成本优化技术已经有27年历史,积累了大量独有专利技术。针对任意的查询,DB2独特的查询重写功能将所有SQL语句改写成为语义上完全相同,但是可以使用优化器所有优化功能的语句,优化器再自动选择最优的查询路径完成查询。此功能特别适用于以图形化界面生成的数据仓库应用。针对OLAP应用做了相当多的优化。强大的基于成本的优化,独特的星型连接算法、动态位图索引、OLAP算子等。

  高可靠性:支持Cluster、Standby等双机热备份、联机快速备份、快速加载数据和快速备份数据恢复。提供双日志功能,具有表空间级的备份和恢复功能,可以从整个数据库备份集中选择需要的单元进行恢复。提供在线重组织表,在线重组织索引,在线配置主要参数的能力,在线创建、删除和修改缓冲池的能力。

  易管理性:IBM DB2是一个SMART的数据库,即自我管理及资源调度的智能数据库系统。DB2由数据库系统自己进行错误分析、可能的解决方案建议及自我修复的功能,提供部分核心配置参数进行自动配置,而不需数据库管理员进行指定和修改。

  2、信息集成平台 DB2 Information Integrator

  IBM特有的企业信息集成平台,通过联邦数据库,复制等技术实现企业内各种信息资源的透明访问和数据同步,真正意义上实现企业信息的集成。该技术具备以下特点:

  提供实时的数据仓库,弥补传统的单向而不实时的数据仓库的不足,提高基于数据仓库的分析决策的及时性。

  提供无缝的连接手段,将目前电力行业的各个子系统包括营销、生产、调度等的数据连接在一起,形成一个统一的数据视图。在不对数据进行搬移的情况下,对数据进行实时访问。不管是访问本地表和还是访问远程数据源,都象所有的数据都在本地一样操作。

  在不影响,更改已有系统应用的前提下,对原有子系统进行包装,对外提供Web Service、消息队列、XML数据交换的能力。

  提供高效的各子系统数据传输方案,如利用各异种数据库的本地接口进行互相通讯。

  提供异种数据库之间数据复制的能力。

0
相关文章