信息化 频道

“信管办”智慧行 详解IBM信息管理产品

  三、“行动科”科长王积杰:infosphere

  王积杰指出,当我们要去“搬运”数据时,还有很多问题要知道。首先要知道数据在哪里,企业内部可能有十几个系统,数据从哪里取?

  如何快速找到需要的数据,由于企业内部的数据,历史的沉淀,当时的开发商可能跑掉,我们没有明确的文件能够记录下来这些数据的含义是什么,还要想办法了解到这些数据的含义是什么,同时还要理解这些数据是否是可用的,是否是真数据,还是有很多错误数据在里面。同时,这些数据取到后,业务部门要的数据的形式和数据仓库的形式可能不一样,我们必须要做相关的转换,然后才能把它装载到MDM的Server里。

  如果是海量的数据,可能需要做一些实时的分析,而不是把一些数据装载到数据仓库里做事后的分析,可能要做事先的处理。要行动必须要有一个计划,不是说随便去装载数据,那是找不到数据的,所以我们必须要有计划。

  我们有一Blueprint也就是说整个数据集成的方法论在里面,通过Blueprint能了解到先该做什么,后该做什么。我们可以设计整个数据集成,从数据源取出该做什么清洗,该做什么转换,最后该放到哪里去,整个的设计。

  我们的业务需求、业务仓库分析,你需要哪些业务主题,哪些KPI,这是跟业务数据相关的,我们先要了解到你的业务需求。然后根据业务需求、业务数据,去了解这些数据在哪里。

  我们有数据质量的探索,去发现这些数据究竟在哪里,然后,数据放到哪里去,就跟把书放到书架一样,把数据放到数据仓库里怎么放,有一个数据模型的问题,一定要放到该放的位置,所以要考虑到数据模型。

  要做数据质量的监控和检查,检查这些数据质量的状况怎么样。在了解了数据质量的情况下,就知道该如何做数据的清洗,清洗的规则是怎么样制定,然后把它装载到数据仓库。

  最后还会涉及到原数据管理的问题,当完成整个数据集成的流程以后,而整个企业内部可能有几十个原系统,目标系统应用也有很多个,中间的转换规则千差万别,任何的东西都是牵一发而动全身。这时需要有一个原数据管理,把整个环境管理起来、记录下来,以后随时随地,任何地方的改变。

“行动科”科长王积杰:infosphere
▲IBM软件集团大中华区信息集成经理 王积杰

  所有流程跟踪分析都是在原数据管理的范畴。这张我们的行动蓝图就是把我们整个行动科要做的很详细的事情全罗列起来了。行动科要行动一定要有合适的工具,好的工具往往会事半功倍。所以,工具对行动科来说是最重要的。所以我们涉及到的工具会很多,几个非常重要的工具:

  第一,Information Analyzer,信息分析器。我们要分析这些数据的时候,我们首先要了解到,这些数据质量的状况怎么样,是不是我们可用的数据,这些数据你怎么去探索呢?传统的可能用手工去写,编程去了解,这样会浪费大量的时间,我们有非常好的工具,叫Information Analyzer,我形象比喻它们,实际上它就像一个数据的X光机,它在很短的时间内就可以帮你的数据库数据做一次体检,体检以后他就告诉你,你的数据的问题有哪些,出现在哪里,相当于人定期要去医院做体检一样,体检之前我们往往不知道我们有什么问题,体检以后拍一张X光片,这里有一个阴影,医生就告诉你这里可能有什么问题。

  第二,搬运清洗的总工具,就是DataStage& QualityStage。QualityStage名字就跟质量有关,就是帮助你清洗数据,把数据标准化,去除重复。当你要把这些数据搬到主数据库的时候,必须要做清洗,合并成一条,这些清洗的工作就是由我们的QualityStage来做。可能你企业内部有40、50个地方的数据,需要抓取过来,然后安到我们的数据要求,有一个数据转换的过程,这是我们的DataStage来做,我们的DataStage& QualityStage为是一个整体的平台。

  用工具来做的好处是,传统的如果自己手工开发,那是会非常难以维护,但是人员变动以后,要让新来的人看过去写的代码,那是很困难的事情,用好的工具,图形化的工具,任何人员的变动,他很方便就能接手,进行改变。而整个开发、维护、管理都会很方便。

  第三、传统的EDI的过程是批处理,但是今天定时批处理来做已经远远不能满足我们的要求。像MDM绝对是要一些实时的数据,任何一个系统的发生,实时会通知到总数据库进行改建。

“行动科”科长王积杰:infosphere
▲infoSphere software

  第四、InfoSphere Streams,流数据,过去我们很多数据的分析等等,我们都是事后分析,我们要把数据抽取放到数据仓库里,然后去做分析。因为分析往往需要很长时间,当这种滞后的分析,在时间上的效能已经不能满足要求,或者说它的数据量特别巨大,你没有可能把它放到数据仓库里慢慢分析,这就产生了对数据流分析的技术。

  这里所做的事情都是怎么样能够更好地、高效地搬运这些数据,并且清洗数据。先要了解数据在哪里,有些什么样的问题,要做数据的体检还要做数据的实时分析。

0
相关文章