信息化 频道

新数据整合的五大方式 Google如何做?

    谷歌将目光转向相似性

    当然,谷歌是网络世界中的王者,他们的目标是对互联网接入世界进行索引。利用与Endeca相似的搜索特性,谷歌可以从隐藏在冗长内容(如网页/文档类型、发布日期和位点)中的元数据、结构和语境中,以及包含情绪分析在内的内容分析技术中受益。谷歌目前正将自己由搜索引擎转变为信息存取提供商。

    谷歌的决策者正在探讨诸如“合并众多商户分类”的应用。这很明显表明他们的兴趣是将谷歌变成一个在线比较购物的工具。

    目前他们正在讨论基于统计学相似度测量的“软连接”。如果你使用硬识别标识,他们也能从中获得优势。硬识别标识是指能够作为明确标识的识别标识。他们会提供ISBN、UPC 以及Web URL。

    URL(统一资源定位符)是一种统一资源标识(URI),其用来指定访问机制,如HTTP和 FTP。URI对于处于发展初期的语义网中的互链数据整合至关重要。

    Extractiv 关注实体

    Extractiv是一家新公司,主要业务是网页蜘蛛技术与语义注释和分析软件整合在一起。Extractiv提供了SaaS(软件即服务)文本分析,可以识别如个体名称、公司、地点等“实体”,以及源文本中实体的情绪与关系。

    大量类似Extractiv的服务支持超网络文本(和情绪)分析,这其中比较典型的是Orchestr8的 AlchemyAPI、Clarabridge、Evri、Lexalytics、OpenAmplify、Saplo和汤森路透的OpenCalais和Zemanta。还有一部分提供对互链数据网络的访问。你可以通过Extractiv体验这种能力。

    整合道路展望

    为了提高每一个系统处理多类型、复杂数据的能力,我们需要做这一工作。虽然我们展示了一些新数据整合案例,但是许多公司需要取得重大进步才能面对来自技术和业务的挑战。在今后,整合仍然会沿着易用、内嵌应用、以终端用户为重点这条道路发展。

0
相关文章