【IT168信息化】
当前,商业社会,疾速增长的信息亟待通过合理高效的组织、存储和管理,转化为企业的信息资产,发挥更大的价值,彰显竞争实力。IBM信息管理办公室一直为此不懈努力:资源科、重案科、行动科、迅捷协作科、法制科等科室各司其职,在IBM“智慧地球”愿景下,通过不同的信息管理软件为企业的信息和数据提供管理,从而加速效能、降低成本,为业务优化奠定有力基础,这几个科的科长,负责各个解决方案在生命周期里的运作。(备注:各科名称以及职务只是模拟企业应用场景,共同解决企业的问题而设置。)
在“信管办”智慧行活动上, 来自IBM软件集团大中华区信息管理的专家从不同的角度诠释了IBM IM产品。
地点:信息管理办公室简称“信管办”
科室:资源科、重案科、行动科、迅捷协作科、法制科
角色:
“信管办”主任:IBM软件集团大中华区信息管理软件总经理卢伟权
“资源科”科长:IBM软件集团大中华区数据管理和数据仓库销售总监何怡静女士
“重案科”科长: IBM软件集团大中华区信息管理主信息管理解决方案顾问总监林世伟先生
“行动科”科长:IBM软件集团大中华区信息集成经理 王积杰
“法制科”科长:IBM软件集团大中华区信息管理软件DSCO销售总监甘佳凌女士
“迅捷协作”科长:IBM软件集团大中华区Netezaa销售总监肖冰

▲IBM “信管办”各科科长(从左向右依次为::IBM软件集团大中华区信息管理软件DSCO销售总监 甘佳凌女士、:IBM软件集团大中华区Netezaa销售总监肖冰、IBM软件集团大中华区数据管理和数据仓库销售总监何怡静女士、IBM软件集团大中华区信息管理主信息管理解决方案顾问总监林世伟、 IBM软件集团大中华区信息集成经理 王积杰)
“信管办”主任诠释当前企业现状
IBM软件集团大中华区信息管理软件总经理卢伟权详细的介绍了IBM IM的产品线以及当前企业数据存在的问题。
卢伟权指出,企业中整个信息管理实际上是有一个生命周期的管理,比如以银行的交易来讲,产生一笔交易他要把这个交易放在信息管理系统里,当它做完交易以后,往后还有很多事情要去管理。IBM信息管理是帮客户管理整个信息的生命周期,从产生到归档到发掘信息的内容,都是由IM产品线提供相应的解决方案。

▲IBM软件集团大中华区信息管理软件总经理 卢伟权
首先,如何管理信息。当你做一个交易在银行里面,就产生一条数据,这些数据会放在数据库里面,在主机上面一些数据库,我们做这些都是结构化数据,这些非结构化的数据,比如照片以及社交网络中不同的人的联系,这些非结构化数据量增长很快,数据增长速度比过去几千年加起来的数据,增长得还要快。

▲IBM 信息生命周期管理
另外,除了非结构化数据以外,还有一些不断产生数据的业务,比如怎么评估某些地方地震频率高或者风险,这可能需要安装很多不同的监控器,这些监控器不断地把数据传出,每一天每一秒钟都产生的数据量很大,地震调研或者天气预报,这些都是要实时分析的,这是信息管理的第一步。
当有信息管理以后要做分析就要有数据仓库,这是很传统的做法。把数据取出,但这些数据都是从不同的来源,中间要有数据的标准化,通常标准化有几个部分:
某些数据的检测方式可能不一样,需要把这些系统标准化,然后再整合到数据仓库才可以做分析,否则无法做好分析。
第三、在数据仓库里有很多不同的需求,而数据量也是越来越大,昨天可能是TB,那么今天有可能达到PB。面对这些大数据量,我们如何进行分析?IBM的数据仓库能够做很快的查询和分析,同时也可以统计。
第四、主数据管理。很多客户有不同的系统,他的系统可能是部署以后,这些系统里面可能都有客户或者有不同的技术在里面。当同一个数据在不同系统里面就会出现一个数据质量的问题,同一个数据在不同系统里,通常来讲没有办法认定它是同样的数据。这是因为不同系统有不同的时间表,这些用户在不同时间把资料输进去,同一条数据,比如姓名、地址、电话、ID,这些都是最基本的数据,都会发生在不同的系统里面。
但是最大的问题是,这些应该是相同的数据放在不同的系统里面,应该是不相同,因为有可能输入出错,还有可能是因为输入的格式不一样,所以每个系统都不一样。
在同一个人在不同系统里的数据一定有不一样之处,为了解决这个问题,很多客户在开始考虑主数据。其实解决这个问题很简单,这些相同的数据在一个位置,所有人找到这个位置去修改、查询,然后就解决了不同系统里相同数据,理论上相同、不相同的问题。
所以,有很多客户现在开始做主数据管理,另外,主数据跟数据仓库也是有一定关联的。
一、“资源科”科长何怡静:DB2和数据库
何怡静指出,“资源科”的目标是要瘦身(压缩)的,高效提供可需的数据,但是要不断降低成本,这是我们所有的,不论是作为资源科来看的情况,还是作为客户要看的情况,都是这样的。

▲IBM软件集团大中华区数据管理和数据仓库销售总监何怡静
地球也是这样的情况,资源在不断消耗,效能有很多地方在无谓地浪费,我们怎么在现有环境下减少这些无谓的消耗,能够增加我们的效能,这其实我们最大的一个愿望。
从IBM来讲,IBM IM部门所提供的资源库,这些资源库就是来存储资源信息的。我们更要做到这三点:就是要求低成本、可信赖和易用,这是我们的的目标。
我们提供4个不同类型的产品也是围绕这个目标来设计的,或者说收购,也是为了我们广大的客户和市场所提供的一个,在不同的场合非常好的的资源库。
何怡静认为,作为CIO也好,作为客户的管理者也好,都要看整个IT往哪里走。
所以,他要看到以下的需求繁多,要求也很高,怎么能在满足他们要求的同时,又能够不断把成本降低。多样性、速度和数量其实是矛盾的三方面,我们怎么能够在这三方面平衡,也就是当我们遭遇冰山的时候,想到这个驾驶舱我会想到,在航行的时候容易碰到冰山,当年泰坦尼克号那么大的轮船也会被冰山击沉。

▲IBM DB2产品线
当你看到大量的数据量,尤其现在信息爆炸的时候,你怎么能平衡自己,平衡好整个IT团队,怎么平衡好你的资源,这其实是我们最重要的问题。IBM在这里就是提供给我们的管理者一个非常有效的存储库,可能叫做大数据的产品。

这是专门来处理当碰到不同的需求、不同的类型,要求非常高,速度又要求很快的时候,这是我们端出去的一个非常好的的菜,能够让你碰到这样问题的时候很好地处理。这是驾驶舱四种产品之外最新推出的产品,这个产品是基于刚才四种的。
当我们企业走入信息爆炸时代的时候,我们所需要管理的东西太多了,我们怎么能够去其糟粕、取其精华,把管理走到非常好的的程度,这是所有管理者设计的非常好的环境方案。我们取了一个名字叫Best of Both Worlds,这不只是IBM,也表示我们的客户,我们整个地球,都是希望走到更佳的环境里,既能够平衡我们的资源,又能平衡我们的成本,还能够得到我们所想要得到的信息。
在我们整个信息管理和资源管理里面,其实从多样性来看,有两类,当你的驾驶舱分成这两条的时候,就可以把它进行归类。一种是传统的OLTP,在线交易系统,一个是分析系统,我们的数据保留下来,为什么要保留?保留是为了查询,还是为了分析,还是为了去做一些备份的档案,这是我们最基本的两个不同场景的需求。
所有的资源都可以归类成这两类,无论是碰到大数据的需求,企业的多样性需求,有传单需要去记录,还是本身报表里的信息需要记录,这些都是不会跳过这两个需求的场景。
当我们做到大数据库和数据仓库的时候,就是做OLAP这类,这两类的东西我们都有不同的产品和不同的使用场景来适应客户不同的多样性的需求。这也就是也是整个IM团队所实施的最大动力,其实这两块也是客户最需要去关注的地方。因为这里面去消耗的成本是最大的。
二、“重案科”科长林世伟:主数据管理
林世伟首先介绍了什么是主数据,他认为,每一个企业都会有自己的主数据,这个主数据就是表示企业最重要的数据。但是有些企业认为,企业里什么数据都很重要,那么怎么知道哪些是重要,哪些是不重要的。

▲IBM软件集团大中华区信息管理主信息管理解决方案顾问总监 林世伟
对于主数据管理有两大方向:第一、主数据不是所有的数据,所有的数据是属于数据仓库的事情,我们并不是要企业内部所有的数据,比如交易数据、账单数据,我们并不是要这些数据,所有的主数据也不是特定应用所特别专属的数据。
林世伟认为,主数据其实是描述核心业务,比如银行,银行最重要的数据是什么?是客户的数据,不是交易的数据。另外,所有的主数据是为跨内部的业务重复被使用,比如在银行内部不同的业务、不同的应用,我们都需要知道客户的信息是什么,所以,客户信息是很重要的数据。但是,这就是我们最大的困难,因为主数据通常是分散在目前已经存在的各个异构的应用中,所以我们必须要通过其它科的帮忙,才能把数据完整收集过来。
主数据四个最重要的领域,客户、产品、账户、区域,IBM与友商不同之处在于,友商会每一块独立来看,IBM的经验是,我们可能会从客户的角度去看到其它三块的主数据,这些模型其实需要扩展的。比如我们发现一颗子弹的弹头,我们要知道是哪一个枪射的,这颗子弹可以搭配在哪个枪里面。
三、“行动科”科长王积杰:infosphere
王积杰指出,当我们要去“搬运”数据时,还有很多问题要知道。首先要知道数据在哪里,企业内部可能有十几个系统,数据从哪里取?
如何快速找到需要的数据,由于企业内部的数据,历史的沉淀,当时的开发商可能跑掉,我们没有明确的文件能够记录下来这些数据的含义是什么,还要想办法了解到这些数据的含义是什么,同时还要理解这些数据是否是可用的,是否是真数据,还是有很多错误数据在里面。同时,这些数据取到后,业务部门要的数据的形式和数据仓库的形式可能不一样,我们必须要做相关的转换,然后才能把它装载到MDM的Server里。
如果是海量的数据,可能需要做一些实时的分析,而不是把一些数据装载到数据仓库里做事后的分析,可能要做事先的处理。要行动必须要有一个计划,不是说随便去装载数据,那是找不到数据的,所以我们必须要有计划。
我们有一Blueprint也就是说整个数据集成的方法论在里面,通过Blueprint能了解到先该做什么,后该做什么。我们可以设计整个数据集成,从数据源取出该做什么清洗,该做什么转换,最后该放到哪里去,整个的设计。
我们的业务需求、业务仓库分析,你需要哪些业务主题,哪些KPI,这是跟业务数据相关的,我们先要了解到你的业务需求。然后根据业务需求、业务数据,去了解这些数据在哪里。
我们有数据质量的探索,去发现这些数据究竟在哪里,然后,数据放到哪里去,就跟把书放到书架一样,把数据放到数据仓库里怎么放,有一个数据模型的问题,一定要放到该放的位置,所以要考虑到数据模型。
要做数据质量的监控和检查,检查这些数据质量的状况怎么样。在了解了数据质量的情况下,就知道该如何做数据的清洗,清洗的规则是怎么样制定,然后把它装载到数据仓库。
最后还会涉及到原数据管理的问题,当完成整个数据集成的流程以后,而整个企业内部可能有几十个原系统,目标系统应用也有很多个,中间的转换规则千差万别,任何的东西都是牵一发而动全身。这时需要有一个原数据管理,把整个环境管理起来、记录下来,以后随时随地,任何地方的改变。

▲IBM软件集团大中华区信息集成经理 王积杰
所有流程跟踪分析都是在原数据管理的范畴。这张我们的行动蓝图就是把我们整个行动科要做的很详细的事情全罗列起来了。行动科要行动一定要有合适的工具,好的工具往往会事半功倍。所以,工具对行动科来说是最重要的。所以我们涉及到的工具会很多,几个非常重要的工具:
第一,Information Analyzer,信息分析器。我们要分析这些数据的时候,我们首先要了解到,这些数据质量的状况怎么样,是不是我们可用的数据,这些数据你怎么去探索呢?传统的可能用手工去写,编程去了解,这样会浪费大量的时间,我们有非常好的工具,叫Information Analyzer,我形象比喻它们,实际上它就像一个数据的X光机,它在很短的时间内就可以帮你的数据库数据做一次体检,体检以后他就告诉你,你的数据的问题有哪些,出现在哪里,相当于人定期要去医院做体检一样,体检之前我们往往不知道我们有什么问题,体检以后拍一张X光片,这里有一个阴影,医生就告诉你这里可能有什么问题。
第二,搬运清洗的总工具,就是DataStage& QualityStage。QualityStage名字就跟质量有关,就是帮助你清洗数据,把数据标准化,去除重复。当你要把这些数据搬到主数据库的时候,必须要做清洗,合并成一条,这些清洗的工作就是由我们的QualityStage来做。可能你企业内部有40、50个地方的数据,需要抓取过来,然后安到我们的数据要求,有一个数据转换的过程,这是我们的DataStage来做,我们的DataStage& QualityStage为是一个整体的平台。
用工具来做的好处是,传统的如果自己手工开发,那是会非常难以维护,但是人员变动以后,要让新来的人看过去写的代码,那是很困难的事情,用好的工具,图形化的工具,任何人员的变动,他很方便就能接手,进行改变。而整个开发、维护、管理都会很方便。
第三、传统的EDI的过程是批处理,但是今天定时批处理来做已经远远不能满足我们的要求。像MDM绝对是要一些实时的数据,任何一个系统的发生,实时会通知到总数据库进行改建。

▲infoSphere software
第四、InfoSphere Streams,流数据,过去我们很多数据的分析等等,我们都是事后分析,我们要把数据抽取放到数据仓库里,然后去做分析。因为分析往往需要很长时间,当这种滞后的分析,在时间上的效能已经不能满足要求,或者说它的数据量特别巨大,你没有可能把它放到数据仓库里慢慢分析,这就产生了对数据流分析的技术。
这里所做的事情都是怎么样能够更好地、高效地搬运这些数据,并且清洗数据。先要了解数据在哪里,有些什么样的问题,要做数据的体检还要做数据的实时分析。
四、“法制科”科长甘佳凌:合规管理确保企业风险和损失达到最小Guardium
甘佳凌认为,当前企业的风险除了财务上的风险外,也可能包含没有符合法规,没有做到合规所产生的风险,也包含可能不小心或者无意识、故意泄漏了客户敏感信息。什么是客户的敏感信息?他的所得,个人隐秘的数据,包含电话或者住址等等这都是敏感数据。
甘佳凌指出,过去企业在IT安全管理上可能都比较着重在网络的管理或者是防火墙,可是最近因为发生了很多意外的事件,这些意外的事件都让大家开始注重数据的保护,特别是数据库的安全。最近中国人民银行也颁布了一个《金融机构做好个人金融信息保护的通知》,里面提到,我们在谈数据保护的时候,特别要重视的是在数据的源头,也就是数据库的安全风险分析。
所以,现在开始都在重视数据安全的管理议题。
那么,可以利用哪些工具或者武器来达到数据库实时的安全保护呢?IBM有一个产品叫Guardium。
Guardium在数据库的安全和审计市场里是市场的NO.1。它的主要功能是:
第一、可以防止敏感的数据被盗取,不管是有意,还是无意。
第二、Guardium是多数据库的厂商,除了IBM自己的DB2 InfoSphere以外,也支持微软、Oracle或者是市场上各种数据库的品牌。
第三、Guardium也专注多层体,除了单点数据库的安全保护以外,假如一个银行在不同的地市有不同的分行,在总行也可以看到在各地的分行储存了哪些客户敏感的信息,谁在动这些敏感的数据。
所以,Guardium除了可以做单一数据库的监控以外,还可以做到是个多层级的企业部署的架构。Guardium数据库监控跟审计市场的领导者,从2007年到今年第二季,Guardium都是这个市场的NO.1。
谈到敏感数据的保护,除了在生产环境的数据,Guardium谈的是我在生产环境数据库的保护。现在各个公司,特别是在银行、电信,会有很多应用在上线,应用在上线的时候就需要去测试这些应用是不是符用,在测试的环节里客户敏感的信息和数据有可能会泄漏,也有可能被外包厂商有意盗取,Optim Data Privacy Solutions就可以保护隐私数据。
Optim的Data Privacy Solutions除了做变形和把敏感的数据做漂白以外,也可以把企业做到变形规则。有些人说我自己开发好了,自己写个规则,当然也可以,但是这个规则是不是也有可能被人家盗走,这个规则会不会因为人变动了,就带走了。所以以人为的方式来做一定不能做到百分之百数据的漂白,还有一个变形的规则。
谈到合规,我们有一个解决方案叫 Optim Data Growth ,比如1-3年可能储存在数据库上面,3-5年可能在一个归档数据库里,5年以上存在tape里。当要查询的时候,可以同时查询在这个银行里,不管是10年前的交易或者5年前的交易,可以同时去查询客户的数据。所以,建议CTO或者CIO可以用Optim的Data Growth归档。如果以测试环境的隐私保护,Optim Data Growth,现在好像是没有竞争者的,除非客户想要自行开发,客户自行开发有哪些缺点。如果以归档的产品来讲,Optim可以支持Oracle所有的产品,而且Optim是Oracle认证可以支持和归档Oracle所有倒装软件的产品。我们在国内目前,在电信、金融都有成功的案例。
五、“捷协作科”科长肖冰:软件部唯一看得见的硬件 Netezza
肖冰指出Netezaa是软件部唯一看得见的硬件。Netezza是数据仓库的一体机,Netezza是一体机的创造者,当然它也是目前这个行业的领导者。什么是一体机呢?这是一个非常专业的写法,一体机是把主机、存储整合在一个标准的工业机柜里,预装了操作系统、数据库,也预装了相关的工具软件,它为适应数据仓库的有关应用做了优化。
在Netezza之前我们做数据仓库的时候一般来说是怎么处理或者说把它叫做第一代的数据仓库。传统的处理模式都是要把数据,从存储那一端,要把数据加载过来,加载到计算机这边来,由CPU和内存做处理,所,这是传统的数据仓库处理数据的方式。在这种情况下,我们经常会提到一个词,就是瓶颈,瓶颈是什么,那就是带宽,带宽是有限的。在传统这些数据仓库的供应商里,大家都在解决同一个问题,就是用有限的带宽怎么传更多的数据。想了很多的办法,但是基本上都没有一个突破性的变革。
在这种情况下,Netezza出现了。
肖冰指出,Netezza有一个特点,它是在磁盘盘阵那一端有一些特别的硬件,这个硬件是做硬件数据的压缩和解压。在带宽不变的时候,因为把数据进行压缩,通过原来的带宽数据会成倍增加。不仅如此,也有好几家是用软件实现的,也有一部分是用硬件实现的。而Netezza不仅仅做这个动作,在查询的时候会有一些查询的条件和语句,这些语句他用硬件把它做好。经过这两件事之后,原来带宽上能够传的数据量扩大了100倍,这是一个非常了不起的变革,因为这个变革,在查询同样数据量的时候,经过I/O传过来的数据少了100倍。但是意味着对于CPU和内存压力的要求也就降低了,这其实就意味着数据仓库的门槛就降低了。