信息化 频道

终极搜索引擎即将问世

编者按:谷歌、微软、雅虎以及其他公司在着手开发新一代技术,以自动化并个性化信息搜索。

  搜索引擎,也就是那个小小的浏览器工具,你在其中输入一个词,并点击回车,之后就满怀希望开始等待,可它返回的往往是数百万个毫不相关的互联网地址。据微软公司(Microsoft,下称微软)称,人们平均要花11分钟的时间才能找到所需内容,而且还有一半的人在达成此目标之前即中途放弃搜索。据高德纳公司(Gartner)估计,由于访问者根本无法找到所需内容,有一半的潜在Web销售因此而丧失掉了。

  谷歌公司(Google)、微软、雅虎公司(Yahoo)、以及其他数十家专业搜索公司,其中也包括那些专注于商业领域的搜索公司在内,已开始展开新一代搜索技术的开发竞赛,以帮助人们更高效地获取所需信息。有了这些新兴的搜索工具,人们便无需再使用第一代搜索引擎能理解的混合语言一遍又一遍地简化搜索。他们将能用英语或其他语言查询问题,或者根本不提出问题,只是基于其以前的查询或所用的应用软件,就能自动收到查询结果。

  用户实际得到的搜索结果将会包括音频和视频文件、PowerPoint幻灯和其他信息图表、以及结构化数据,这些信息全部精选自Web、PC、以及公司数据库,并最终汇成统一的信息流。假以时间,图像搜索甚至能在图像中检测信息,而无需对元数据进行解析。

  搜索结果将会更加精确,并经过自动归纳总结,按照个人偏好依相关程度进行排序。聚类、标签云(Tag Cloud)、和制图比例尺等可根据参数扩大或缩小搜索的新表达方法以及自动分类,可以简化对搜索结果的处理。同时,采用标签服务、社会性书签服务(Social Bookmarking)以及共享搜索等方式,充分发挥人类智慧和群体智慧的力量,搜索引擎将得到极大改进。

  而且,我们无需翘首以盼,等待这些高速搜索引擎的出现。如下一些高级功能已随处可见。

语义搜索

  当今多数搜索引擎都要求使用速记语言,也就是某些人称作Keywordese的语言。“那就像跟一个2岁小孩说话,” Powerset公司首席执行官(CEO)巴尼?佩尔(Barney Pell)形容道,Powerset是一家将自然语言处理应用于搜索领域的初创公司。未来十年,佩尔指出,搜索引擎“理会意思”的本领会更为高强。

  Powerset公司、Hakia公司、以及其他一些公司已开始开发新的搜索引擎,这些搜索引擎应用语言学解释问题,分析Web内容,并且如果必要的话,通过与用户的互动来优化搜索结果。Hakia公司CEO里萨?博坎(Riza Berkan)憧憬说,未来搜索引擎会成为“知识渊博的工具,如果我们能教会它们如何讲话、如何理会用户的意思。 ”

  语义搜索引擎对语言进行解析,就像学生学英文一样,用字典和辞典来解释字的意思,并依据句法的基本规则将之连起来。比如,“国际商业机器公司(IBM)于1996年斥资7.43亿美元买下了Tivoli公司”这句话,包括了购买、购买的主语、购买的时间、以及买入价等几个概念。

  迄今为止,尽管Hakia公司的搜索引擎已能够利用语言提示在它自己甚至都不能领会的概念中发现大致意思,但人们应用语言规则并定义分类以缩小搜索范围的做法仍然有助于推进搜索引擎的开发。“如果它能做到完全自动化,我们就能宣告自己发明了新人类,”博坎调侃道。

  谷歌公司(Google)和雅虎公司(Yahoo)等在开发Web搜索引擎时也都会雇佣语言学家,尽管他们的搜索引擎还远不能与Hakia或 Powerset的语义搜索相提并论。谷歌的搜索引擎能进行拼写检查,并返回所搜索的单词的同义词和变体,但并不能始终准确地解答疑问。

  联邦保存研究所(Federal Preservation Institute)的历史保存学习门户(Historic Preservation Learning Portal),采用企业搜索公司Autonomy公司的技术。该网站存有大量有关记录保存规则和保存方法的文档,研究所应用语义搜索帮助那些非专家类的用户发现其所需信息。

  “他们应用这些工具,用普通语言即可提问,而其问题中并不需带有关键词可能会含的技术术语。”该研究所总监康斯坦丝?拉米雷(Constance Ramirez)介绍说。比如说,有个网站访问者可能会询问加里福尼亚州红屋顶房屋的保存情况,“看到返问的各类结果都是相关的,那种感觉真是妙不可言。”拉米雷回味道。

  IBM也在致力于医疗卫生和政府等领域的专业文本分析研究。客户利用其名为OmniFind Analytics的搜索引擎,甚至可以分辨诸如情绪这样的细枝末节之处,而且不管搜索到的文档对某个主题的记录或分析是积极的还是消极的,客户还可对公司内使用的专业词汇、概念、以及专有名词进行定义。

0
相关文章