无论是数据库技术还是存储技术,都只解决了15%的结构化数据的管理问题,85%的非结构化数据还孤悬在一片“信息孤岛”上。
【IT168 专稿】GOOGLE一下“非结构化数据”,搜到的简体中文和繁体中文页面有131万之多,其中相当多的网页引用了同样的数据:“非结构化数据的信息占信息总量的85%以上。无论是数据库技术还是存储技术,都只解决了15%的结构化数据的管理问题,85%的非结构化数据还孤悬在一片信息孤岛上。”
处理非结构化数据的5个步骤
相对于结构化数据而言,非结构化数据量更加巨大。非结构化数据可以粗略分为数字媒体类和文档类两种,数字媒体类主要包括声音、图像、视频等多媒体数据;而文档类主要包括文档、传真、演示文稿等数据。
据Unisys中国区客户解决方案部高级项目经理王立生介绍,企业的非结构化数据处理过程包含采集、存储、管理、展现及归档5个步骤,它们各有不同的作业目标,配套的信息技术也大相径庭,但每个环节却又互相影响,可谓牵一发动全身。采集阶段的工作目标是尽量扩大数据收集的途径,确保企业能够捕捉宝贵的信息,因此采用的技术包括影像扫描、输入设计、文字识别、聚合、索引及分类等。采集数据量大增,自然对下一个阶段“存储”构成压力。而存储的首要任务是按照数据的重要性来分类,然后分配有关的存储资源,近年来讨论甚多的“信息生命周期”或“分层式数据存储”就是用于这个步骤的一些技术方法。
头痛医头 脚痛医脚
企业不利用信息技术对数据进行有序的管理,不但不能发挥数据应有的商业价值,更有可能被海量数据“淹死”;但如果投资信息技术不得其法,又会造成公司资源浪费,数据管理效果也将事倍功半。
王立生表示,现在企业的IT和业务部门大多明白它们需要采用信息技术来管理日益庞大的商业数据,但通病是没有整体的规划,对数据处理程序的各个步骤采用“头痛医头、脚痛医脚”的治理方针,结果导致各个环节互不衔接。例如发现采集程序有纰漏,就马上增加有关的数据采集工具,而存储程序却没有相应增加资源,造成增添的数据流失;或者是管理步骤采用了新技术以提高数据的共享、交流和利用,可是展现步骤的安全技术没有跟上,使得企业的数据使用安全出现漏洞。
“假如企业对数据处理程序所作的IT投入出现资源错配的情况,公司将难以看到数据所带来的商业利益,IT投资无法取得理想的回报。问题的症结是没有一个平台让CIO站在总揽全局的高度,通盘审视如何采用信息技术优化非结构化数据的处理过程。”
非结构化数据平台:系统的“设计图纸”
构建非结构化数据系统需要各种技术,就像盖楼离不开钢材砂石。然而除了钢材砂石之外,盖楼更离不开一套完整的设计图纸,这张“图纸”就是非结构化数据平台。目前,市场上定位于处理非结构化数据的技术源源不绝,也为设计者提供了多种技术选型可能和建设周期的方案,而选型、工期变化的背后是巨额的IT投入,投资效益难以预估。另一方面,非结构化数据平台建设涉及流程再造,关系到企业内部多个部门工作方式的变化,对经营和业务的影响也不容易准确推测。
据了解,Unisys公司推出的基于建模技术的IT投资咨询服务3D-VE,是为非结构化数据系统解决钢材砂石之外的“图纸”问题的一个技术选择。作为一项IT投资咨询服务,3D-VE的独特之处是它基于虚拟建模技术,能把计算机模型技术在机械工程等领域中实现的成绩移植到企业信息化项目中,以及与企业信息化密切相关的软件工程、系统工程和业务处理中来。
3D-VE咨询服务的目标是让客户在IT投资实施前预知投资结果。对于非结构化数据系统这样因素众多、高度复杂的对象,3D-VE分层模型可以在不损失细节的前提下把它从不同角度抽象出来,提供一整套共同的概念体系和表达方法;化解业务与技术部门的沟通障碍,精确、无歧义地捕获和表达不同层面的约束因素、关注焦点、对信息系统的功能需求。
3D-VE分层模型的优势还在于模型之间的数字化互联能力,即各层模型的数据相互衔接,互为验证,而且从某一层约束条件的变化可以导出其他各层的相应变化。这种可追溯性提供了3D-VE分层模型模拟企业运行的能力,客户能够根据非结构化数据系统的建设目标模拟出需要的技术组合与投资明细,也可以反向操作,根据企业资源的制约条件模拟出多种不同的建设目标:它可能是企业级的、独立的非结构化数据平台,可能是部门级的、与具体业务应用紧密集成的非结构化数据子系统,也可能是仅处理流程外的、事后性质的非结构化数据,也就是电子档案系统。