解决现有的数据差错问题
记者:数据是BI的核心,企业做BI的同时总会因为数据的质量问题而导致BI的结果有问题,对于此,您是如何来看待的?对于数据的质量问题,有没有办法来调整?
蒋杰:数据质量问题每个行业都会有,我们也曾经遇到过遇到很多次。比如很多事情预是预想到了但当时的场景没有发生,而往往是没有预想的场景发生了,这样的情况可能很痛苦。
那么首先第一步应该怎么要去有一个系统监控?
根据自身对于数据的敏感性去发现这个问题, 当发现这个问题以后,那我们就可以找到解决的方案。我们一般解决的方式有两种:
第一、 就是把当前发现的问题“绕”过去;
第二、新建一个系统,事后做一个迁移。
它所发生的成本是不一样的,那根据业务的需求,比如作为一个继承人员,觉得系统应该变迁,但是业务人员、业务支撑不能停下业务,那么就应该根据业务的时间去调整整个技术演进的线路和部署,这是关键。
往往现在的路线——技术路线和成本路线应该得到是很匹配的。技术路线,我们采用的是PC内置的架构,完全用PC来解决我们存储数据、计算的问题。我们做过这样一个比较一个PC,与几个高端的小机去做一个对比,其实性能也不定比高端差,但相应的成本是几倍的下降。在谈到这个问题的时候我们应该去考虑企业的技术路线、成本路线,不能一味的追逐高端的小机,高端的存储来解决我们所有的IT问题。
记者:信息系统产生了大量的数据,但确不知这些数据如何去用?在您看来,我们应该怎么来进行数据处理?
蒋杰:所有企业在数据方面临两个问题:第一、快速的问题;第二数据质量的问题,数据的正确性如数据的真实性。
我们在做数据质量的时候,在数据的源头从源系统把数据抽出来在数据出发处做了一些数据校验, 把一些不规划的数据,在这一层做了一个处理,当进入数据仓库以后,基本上我们按照更多让业务开发人员去了解,建好模型应该把业务切得越清楚越好。
当切分以后,在产生的各种报表或者分析的数据,也是非常关键的。对于我们报表的结果, 应该和前期的数据质量系统作一个比对,来做事后监控一样的过程。这样让面对客户的数据,至少是检验过一次的,这个过程当中并不能保证完全正确,但这个是有一定的。
记者:那么,这个数据质量系统是应该什么时候开始建?
蒋杰:数据质量系统其实有几个方面,比如源数据,数据仓库等, 这个数据应该根据企业业务的应用把它建在源数据基础上,如果没有源数据,建数据质量系统是没有基础的。
记者:针对于数据方面问题,除了用传统的技术手段以外,在您看来有没有更好的办法来规避这种出现数据质量的问题?对于我们IT人员有什么更好的建议?
蒋杰:我们现在是这样的,数据仓库的开发人员都是用了我们自己定的开发的规则。开发的标准而把一些复杂的东西基本上把它封闭, 这样从代码的角度来看,应该能规避一些错误,这是一个方面;第二、完成开发以后会有相应的测试及测试过程;
第三,预上线。前端的报表开发在做完这个报表后,数据同样还有一个交接,这样尽可能的把错误降到最低。
记者:如果从技术的角度来看,在您看来目前BI或者数据仓库方面还存在哪些瓶颈?
蒋杰:我们现在做数据仓库中的时候,首先,在数据库方面,这些数据库都是为了解决一个问题——I/O问题。我们经历过这样一个问题,CPU、内存未必那么忙,但是磁盘这方面瓶颈。
我们做ELT数据仓库时,每天所思索的是真正解决I/O磁盘问题,怎么把I/O磁盘问题解决掉?原来我们在存储这一层解决,现在把它分散出去,用分布式数据库把它分散在每一台机器来解决。在I/O过程中同时会引发一个问题——网络的问题。因为I/O分散了但同时它的网络上升了。所以,如果I/O问题解决掉,网络问题就是第二位。