【IT168 信息化】
寿命超过了200岁、电话号码中有字母、项目结束时间早于开始时间、生日出现了2月30日等等,在我们看来这些数据根本就不可能,但在计算机系统中这样的数据并不少见。不仅如此,在计算机中还有不少“幽灵数据(缺少最关键的信息,如客户信息缺少姓名等)”以及重复数据(如相同地址的不同表达方式,被当成了两个不同数据)存在。这都是数据质量管理需解决的问题。
导致这些数据质量不高的原因很多,比较常见的是由于计算机操作人员录入时不小心,而应用系统在设计时又缺少对数据的审核和验证,最后进入数据库。在计算机应用早期,数据量小,通过事后的人工核查可以提高数据的准确性,但是随着数据量的快速膨胀,人工方法已经无法解决海量数据的核查和校对问题,数据质量问题日益突出出来,并由此形成了一个很大的数据质量管理市场。
2008 年 6 月 10日Informatica 公司发布了一项由其委托IDC对 “中国数据集成与数据质量市场”进行调查研究的白皮书。研究结果表明,在接受调查的100家大中型企业中,超过70%接受调查的中国企业已经建设或正在建设数据集成项目,其中具有前瞻性的企业通过建设企业数据集成平台实施数据集成,并正在重点关注数据质量热点问题。本次调查的企业在行业上包括金融、电信、制造、医疗到军队等11个,公司的规模都超过了500人。
据负责撰写此报告的IDC高级分析师刘飞介绍,调查发现数据质量问题是导致中国企业面临数据集成难题的主要原因之一。
“数据不完整和不准确在中国企业中非常普遍,72%的接受调查的中国企业中存在重复数据,60%的企业存在不完整的数据。”刘飞表示,之所以出现这种情况的原因是中国企业通常基于单个项目实施数据集成,每个项目受项目目标的影响,只会集成部分与项目相关的信息,无法集成企业各部门全面的信息。
其他导致数据集成困难的原因包括: 由于每个项目都有自己的集成方式和工具,有的甚至使用手工编码,而无法复用IT投资; 由于集成工具的多样性和简易集成工具的不易操作,导致高额的维护和管理成本; 基础架构复杂,造成实施更改非常困难等。
对企业而言,数据质量有着至关重要的作用: 首先,准确、可靠的数据可以节省企业成本,即使是删除重复数据这种简单的操作也能带来可观的成本节约; 其次,高质量的数据有助于简化 IT运营,并充分利用有限的资源。数据质量较高,IT 部门就不必再将人员和时间投入到检测和解决源数据、编写代码或维护数据中的意外错误和异常中,从而可以致力于项目的实施,最终提高运营收入; 第三,准确的数据是企业科学决策的前提。商业智能在现代企业越来越普遍地得到应用,日益成为很多管理者决策的重要依据,他们通过商业智能了解企业的经营状况,制定下一步市场计划,而错误的数据会导致错误的决策,轻者贻误时机,重者直接导致经济损失。
Informatica大中国区董事总经理吴韶益介绍说,IDC的调查报告与他们的感觉非常一致,这几年以数据集成和数据质量管理为主要市场的Informatica非常强烈地感受到了数据集成和数据质量市场旺盛的需求,公司的收入连续三年保持21%的增长,而中国市场的增幅还会超过这个数字。
IDC在报告中建议企业需要提高数据质量,同时提醒说,由于系统和应用程序经常接收到新数据,数据的总量还在不断增大,因此确保数据质量并不是一次就能完成的。所有企业都应该使用一种反复进行的阶段性过程来管理数据质量。IDC建议的方法包括,建立基于面向服务的体系结构以及使用集成能力中心(ICC)等,依托企业数据集成平台实现企业数据集成并解决数据质量问题。
“企业数据集成平台可以依靠不同项目分阶段建设和完善,而数据质量持续改善则需要遵循数据质量管理流程完成。”刘飞总结说。