【IT168信息化】
在我看来,企业的全部IT系统只是为了一个目标,就是如何处理好数据,无论是基础架构还是前端应用,包括目前衍生出来的虚拟化、云计算等技术,都是为了存储、管理并分析数据的。数据对于一个企业来说是最宝贵的财富,但前提是这些数据必须是质量良好的,无论历史数据还是实时的数据,我们需要它能够为企业带来价值,因此这些数据不能够是“脏”的。
企业获取数据的方式有多种多样,来自企业内部的数据和外部的数据经常是混杂在一起,一同存储在数据仓库中。这就会造成问题,如果相关人员对某些数据进行了修改而没有知会其他人,数据变更之后又存到了系统中,这样将造成数据的不一致性和不完整性,如果系统管理员或者分析师再利用这些数据进行分析,那么得出的结论比如会出现误差,造成Garbage in-Garbage out的问题。企业急需对数据质量进行管理,而且这样的需求已经被重视起来,越来越多的企业开始使用数据质量工具来管理数据的一致性、可用性和完整性。
企业数据质量管理软件目前已经发展到了相对成熟的阶段,像IBM、SAP、Informatica等大厂商都有不错的解决方案,帮助企业的数据进行清洗,其中涉及到的一些功能包括:
数据剖析(data profiling ):对数据做初步的评估并总结其存在的问题
数据标准化(Data standardization ):利用特定的业务规则引擎保障企业数据全部遵照该规则
地理编码(Geocoding ):该功能针对的是姓名和地址数据
数据匹配(data matching):匹配那些大体上相同的数据,其中会利用到模糊逻辑,将它们定义为相同的数据
监控(Monitoring):记录数据质量并做相应的记录
批量与实时(Batch and Real time ):在应用软件中嵌入批量数据清洗功能,随时保持数据质量
目前,除了IBM、SAP、Informatica和DataFlux等工具之外,我们还可以利用Talend 和Ataccama这样的开源免费软件来管理企业数据质量。数据质量软件市场还有较大的提升空间,比如充分利用云的优势等。