【IT168 技术】 数据整合将是2011年信息技术的重点。无论你的兴趣是商业智能、信息访问还是运营,这些都与客户资料、交易、产品与竞争信息、网络博客等企业数据有着千丝万缕的联系,你需要从日益增长的如潮水一般的社交/在线信息中找出与业务有关的内容。
ETL(提取转换加载)数据仓库,以及新出现的率先加载的变体ELT仍然是主要的整合方式。但是这一方式将得到新出现的动态多源头信息整合和语义整合的补充。这一方式还将受到数据配置(类型、分发和属性特征)的推动。
这些新出现的ETL方式构成了新数据整合。这些方式具备有易用、内嵌应用、侧重于终端用户的整合特点。
新数据整合针对的是大量不同的数据源和需求,以及日益增长的DIY数据分析需要。下面我们将为大家介绍一下Tableau、Attivio、FirstRain、谷歌和Extractiv公司采取的一些相似但又不同的方式。每一个案例都在新数据整合方式中具有代表性。
Tableau: 易于探索
没有任何一家商业智能厂商能够比Tableau软件公司更能体现DIY精神。公司的可视化、探索性数据分析软件能够让终端用户深入挖掘结构性数据源,共享和公布分析结果。Tableau的实力和易用性为公司赢得了大批用户。
在11月份推出的Tableau 6.0版具有“数据融合”功能。其不仅能够通过名称和特征对来自不同的数据域进行连接,还可以求和,如从月份到季度,便于将存储在不同的合计层的数据进行整合。
为了便于融合,该软件还支持“别名”。如能够将州名全称与缩写进行匹配、将产品编号和产品名称进行匹配等等。
在使用中,该软件可以实现预算和销售计划与现货进行比对,用户可以将电子表单中的数值与公司记录进行比对。此外,该软件还具备将外部信息与公司数据进行融合。
与大多数商业智能应用一样,Tableau一直致力于“结构性”数据。但是随着用户开始面对如潮水般的在线和社交源,这一重心必将会发生改变,转变为搜索与文本分析增强型商业智能。
Attivio: 通用与统一
企业搜索和商业智能已经发展了十余年,其主要用于信息孤岛,一个仅限于文档,另一个仅限于从运作和交易系统中收集数据。Attivio的目标是打断数据库和文档之间的壁垒,依靠一个统一目录提供搜索接口。Attivio的努力使得BI界面与分析工具融合在了一起。
Attivio通过API和连接器(由公司和合作伙伴提供)从完全不同的源,或是从文档和数据库、电子邮件、内容管理、以及企业应用系统中收集大量数据。
Attivio主动智能引擎(AIE)先提取内容(文本、元数据、结构信息),然后处理、充实和连接这些内容。公司共同创始人兼首席技术官Sid Probstein称:“充实提取的内容和分类等组件可在整合进程中增加智能。”
Probstein称:“Attivio主要执行‘动态图表生成’。‘动态图表生成’主要基于所发现数据的数值和类型。我们拥有大量组件,这些组件可在小型数据集合被处理后识别和报告整合机会”
FirstRain的时间排序
FirstRain是一种商业信息搜索和监测工具,除了拥有一套关键的公司信息数据库外,其能够从新闻、博客、行业、政府、科研和大学资源等开放网站上挖掘和整合信息。其目标是“获得关联,发现管理或商业结构中的变化,跟踪行业发展趋势。”
公司技术副总裁Marty Betz称:“语义分析应用是指‘商业结构意识’,这对于识别和传递分散于不同资源中的相关商业信息十分关键。同时,这也对是否有能力将从公开网站上发现的信息依时间顺序进行整合十分关键。”(时间排序相当重要。事实上,当我们用谷歌搜索美国宾夕法尼亚州参议员时,排名第三的搜索结果居然是已在参议院网站上被删除了的前Arlen Specter参议员)
Betz称:“通过利用我们的方式分析信息流,系统能够动态建模,及时调整它们对公司和行业周边市场环境的理解。”
谷歌将目光转向相似性
当然,谷歌是网络世界中的王者,他们的目标是对互联网接入世界进行索引。利用与Endeca相似的搜索特性,谷歌可以从隐藏在冗长内容(如网页/文档类型、发布日期和位点)中的元数据、结构和语境中,以及包含情绪分析在内的内容分析技术中受益。谷歌目前正将自己由搜索引擎转变为信息存取提供商。
谷歌的决策者正在探讨诸如“合并众多商户分类”的应用。这很明显表明他们的兴趣是将谷歌变成一个在线比较购物的工具。
目前他们正在讨论基于统计学相似度测量的“软连接”。如果你使用硬识别标识,他们也能从中获得优势。硬识别标识是指能够作为明确标识的识别标识。他们会提供ISBN、UPC 以及Web URL。
URL(统一资源定位符)是一种统一资源标识(URI),其用来指定访问机制,如HTTP和 FTP。URI对于处于发展初期的语义网中的互链数据整合至关重要。
Extractiv 关注实体
Extractiv是一家新公司,主要业务是网页蜘蛛技术与语义注释和分析软件整合在一起。Extractiv提供了SaaS(软件即服务)文本分析,可以识别如个体名称、公司、地点等“实体”,以及源文本中实体的情绪与关系。
大量类似Extractiv的服务支持超网络文本(和情绪)分析,这其中比较典型的是Orchestr8的 AlchemyAPI、Clarabridge、Evri、Lexalytics、OpenAmplify、Saplo和汤森路透的OpenCalais和Zemanta。还有一部分提供对互链数据网络的访问。你可以通过Extractiv体验这种能力。
整合道路展望
为了提高每一个系统处理多类型、复杂数据的能力,我们需要做这一工作。虽然我们展示了一些新数据整合案例,但是许多公司需要取得重大进步才能面对来自技术和业务的挑战。在今后,整合仍然会沿着易用、内嵌应用、以终端用户为重点这条道路发展。