1前言
企业信息化是当前社会热门的话题之一,随着社会发展,人类的生产、生活越来越离不开信息。谁拥有了更多更有效的信息,谁就将在竞争中处于有利地位。“以信息化带动工业化”也已成为各地政府、各企业领导使用频率最高的词汇。近年来,在政府积极推动和引导下,企业在信息化建设上不断加大投入,企业信息化建设有了长足发展。
随着计算机技术的发展,建立起一个应用系统并不困难,困难的是如何让您的应用系统真正产生效益。应该看到,虽然社会在信息化建设方面投入了大量资源,其现状并不令人十分满意,很多信息系统虽然运转起来,但是利用率很低。
这其中可能有众多原因,导致信息系统运行的效果,未能达到前期设计时的目标,其中,有组织的数据质量是问题的关键所在。客户忠诚度主要由企业与客户及各方面沟通的有效性及准确性来决定;系统运营效率也主要依赖于数据获取的可靠性和及时性,在此基础上,预测、计划以及其它的重要功能才能得以精确实施。
数据的质量问题正在开始逐渐地被高层管理部门所重视,而不只是IT部门的事情。根据Price water house Coopers对全球600个CIO和IT主管的数据管理调查,电子商务已经使得数据管理及战略被放到了一个很高的位置。
2影响数据质量的几个因素
2.1历史问题,造成数据分散、不规范
发达国家的信息化过程先是较广泛地使用了主机/终端方式,在PC机出现后才逐步过渡到客户机/服务器方式。因此,在数据管理上一直比较重视集中、规范,较早地使用了关系型数据库,并由此带动了领导者和计算机技术人员对数据质量重要性的认识。
与发达国家不同的是,我国大范围的计算机应用是从PC起步的,PC机在数据管理上的优点是:应用简单、人机界面好、灵活。PC机用于数据管理带来的问题是:数据分散、不规范。特别是在PC机上广泛应用的报表处理,个人的随意性(指标定义、报表格式定义、报表软件选择等)影响了数据规范。不同部门之间、不同年份之间、甚至同类业务不同处理环节之间,数据口径不一致,可比性差,造成数据上的“历史问题”。因此,尽管我国改革开放20多年来,积累了大量的数据,但利用率普遍很低。
另外,原有计划经济体制,从表面上看是高度统一的,但在执行中又是条条分割、各自为政。因此在数据统计上是各自定义指标体系,各自下发统计要求,各按自成体系收集,各自分析上报。不光是国务院各部、委、局之间,甚至同一个部各司(局)之间也是如此。这种数据资源的条条分割,不仅给基层部门带来了沉重的负担,浪费人力物力,而且损失了数据之间的相关性。
2.2设计时需求不明确,缺乏远见
数据库与文件管理系统的重要区别之一在于不仅存放数据,而且存放数据之间的相关性。相关性不仅表现在数据依存的时间、地点(部门)、类型、名称等原始属性上,还会在数据的转移过程中,产生再生的相关性。某些人为因素(例如:选取的口径、精度、采样时间点、时间片划分不同)会使数值发生变化,这些因素也是不可丢失的相关性。希望从数据中发现的东西越多,相关性的要求就越高。一些领导对数据的认识缺乏严肃性和远见性,将手工处理时的随意性带到计算机处理中,长远下去工作肯定会受到影响。
应用需求不明确,影响数据完整性和准确性。在系统开发之初,管理者说不清应用需求,设计目标难明确;系统开发中,不断冒出新要求,计划赶不上变化;系统开发完后,为了适应众口难调状况,修改、完善周期拖得很长。这样的系统,可利用的程度自然不高。
2.3开发方式落后
原始数据都是由业务干部掌握的,相关性也是他们最清楚,但他们不懂计算机程序。而编程人员大多数不熟悉业务,对相关性也难于理解,很难编写出业务人员使用方便、适应面宽、又很灵活的口径调整工具。长期以来两类人员不易沟通,数据口径调整就成了老大难问题。
目前,大多数单位的开发方法往往把主要精力和资金投在编程上,而数据如何准备较少考虑。系统开发完后才发现所需要的数据拿不到或不能用,影响数据可移植性和可继承性。数据库应用软件开发必须与数据的组织、整理同步,并应着重考虑继承原有的信息资源。
2.4对数据准备认识不足
一些单位对档案数据的重要性缺乏认识,以为计算机是功能较多的机器,数据质量差些不要紧;也有的单位仅仅是“赶时髦”才盲目购买机器,对数据工作的难度、工作量等缺乏思想准备;还有的单位是为了应付评比检查,并没有真正把自动化检索提到议事日程。
2.5缺乏质量控制监督措施
由于多数检索系统没有进入实际应用阶段,数据质量的控制和监督往往被人们忽视。绝大多数单位在数据准备、录入阶段缺乏审核等质量控制、监督措施。著录标引的检查,一般采取自己审核或互相审核的方法,少数单位也设专人负责质量检查,但实际上由于种种原因,不能将著录卡片与文件一一对应起来审核,有些问题也难发现。还有一些单位,由录入人员看着档案或仅仅看着目录往计算机中输入数据,质量就更无法控制和监督了。
上述诸因素影响了数据质量的提高,而没有与应用需求相适应的数据质量,数据库利用率也很难提高。
3提高数据质量的几种措施
国外图书情报界是这样来形容数据重要性的:“GARBAGEIN,GARBAGEOUT”(进去的是垃圾,出来的也是垃圾)。数据质量得不到保证的话,信息化过程中其他流程的实施根本不可能达到预期效果。
接下来,我们来探讨一下提高数据质量的几种措施,以提高信息系统运行的效果。
3.1原始数据的正确录入
在应用程序范围,必须保证正确无误地输入和记录数据。应用程序的数据质量标准包括:保证数据的正确录入,信息没有因为自由形式的字段而被掩盖和飘浮不定。用于探测数据差错的程序是很重要的,这样可以确保错误的拼写不会导致重复的客户或产品条目,确保实体间的关系得以正确维护。
3.2常规的数据库清理
对于拥有大量客户记录的众多企业,或者甚至是对于那些只拥有普通客户数据库的企业来说,常规的数据库清理对于维护客户关系都是至关重要的。
3.3数据整合与分析
最后,数据质量提高后,在原有信息系统的基础上,通过数据挖掘对业务信息进行深加工,从中抽取知识或规律,并从不同的角度进行分析研究,将所发现的知识运用到信息管理、查询处理、决策支持、过程控制等许多领域,以构筑自己的竞争优势,扩大自己的营业额。将这些来自于不同部门的历史遗留数据进行分析、匹配,从而得到关于该客户详细、全面、一致而不重复的记录,并且将其存储到公司统一的中央客户数据库中。
跨部门综合分析时,数据的相关性也很明确,可以按维划分、分簇、分类、分层、旋转,为今后的数据挖掘奠定一个良好的基础。
4小结
一个应用系统,如何真正地被应用起来,这几乎是广大经营管理者所面临的一个共同难题。而提高应用系统的利用率,关键在于能否提供高质量的数据,能否有效地管理好浩如烟海的数据,并从中提取出对自己有用的信息来加以利用。
数据作为信息的载体,其数据的质量,对于信息技术的重要性,正日益得到人们的重视。收集数据以及保证数据的质量是指导企业维护并拓展客户关系行动的基础。在此基础上,应用数据仓库技术,改善企业决策支持模式,并取得最大的投资回报,已经成为大多数成功企业的共识。(e-works)