信息化 频道

终极搜索引擎即将问世

结果导向

  “谁说一个编辑框外加10个蓝色链接就是搜索引擎了?”微软的内德拉质疑道。这个问题提得好,但在搜索的新世界里,它就显得不那么相关了。现在,人们已发现了用于显示搜索结果的新办法,从自动化聚类和分类到对问题的实际解答,各种都有。在微软的Live Search中,键入“西雅图交通”几个字,就会有一幅地图弹出来,上面绘有公路,并用色码标示出路面上车辆的行驶速度。与此近似,在谷歌网站上键入“亚伯拉罕?林肯的生日”,第一个搜索结果会显示实际日期——1809年2月12日,然后下面跟着一系列相关地址链接。

  Vivisimo公司同时也运行着一个名为Clusty的消费者搜索引擎,该网站可通读网页的文本内容,并通过语义理解,在搜索返回的前200个文档中,迅速建立分类。Vivisimo的Clustering Engine可以确定诸如“漂亮”和“华丽”这样的词,其意思之间存在关联性,然后根据这类共性对搜索结果进行分组。“主题可帮助人们根据上下文进一步理解数据的含义,并且大致明白信息是如何被组织到一起的。”该公司市场副总裁丽贝卡?汤姆逊(Rebecca Thompson)指出。

  在商业环境中,计算机生成的聚类显得尤为重要。因为在商业环境中,用户不能根据某个站点的流行程度来确定其相关性。与Vivisimo一样, Endeca公司也使用自动分类的办法,并采用“导航”的方式,他们这样做基于如下理论:人们通常不对特定的内容进行搜索,而其期望搜索引擎能帮助发现的内容,往往是他们不知道如何一清二楚地提问的。

  美国最大的家具建材零售商家得宝公司(Home Depot)的网站即由Endeca技术驱动,从中可管窥Endeca前述想法在实践中的应用。例如,对“冰箱”一词的搜索会产生大量信息,并依类别、价格、以及品牌等进行分组,而且对于每一组都能进一步进行搜索。分类通常以每个搜索条目的元数据为基础。“未来的设想是,对信息进行归纳总结,整理成用户期望看到的形式。” Endeca公司战略拓展与市场副总裁马特?艾什纳(Matt Eichner)介绍说。

  Factiva公司的搜索工具采用Fast Search & Transfer公司的技术,用于发现发表在网络日志、媒体站点上有关某个品牌的任何内容,并将这些内容分为喜欢的和不喜欢的,还对之进行相应的量化,辅以线图,以显示人们的认识随着时间而改变的过程。

  另外一个较早利用搜索引擎收集新知识的例子是谷歌Trends。它是谷歌实验室(Google Labs)的一个项目,可以几乎同时满足搜索者完全不同的兴趣[比如,太浩湖(Lake Tahoe)和雪橇]。“如果计算机能进一步理解这个世界,那又会是怎样的情形?”卡茨自问自答地说,“如果你能解决这个问题,你就能真正理解人们在搜索些什么。”

多面性搜索

  今天的Web搜索引擎可以对超文本链接标记语言(HTML)文件、PDF格式文件、Office文件、以及音频、视频和图像元数据进行筛选。而未来的搜索引擎不仅可摆脱对元数据的依赖,对图像、音频、以及视频直接进行搜索,还能在其他搜索结果中纳入这些形式的内容。“你不会看到分别面向音频、视频、以及文本的不同系统。” Autonomy公司的CEO林奇简捷地总结道。

  尽管并非总是能面向不同数据类型建立恰当的关联模型,谷歌的通用搜索仍可谓这一领域的开先河者;其他进展还包括:Autonomy公司的技术可查觉情景的变化,并将视频分配到可搜索的内容中。而且,Autonomy公司、Sonic Foundry公司、以及Nexidia公司的搜索引擎都具备对视频或音频的音轨进行搜索的能力。

  销售衣服和服饰的站点like.com,算得上说明图像搜索技术发展方向的一个典型例子。利用该网站提供的类似搜索(Likeness Search),用户可依各自的尺寸,从颜色、外形、以及款式等方面提供个人的设计参考意见。目前,微软和谷歌都已开发出了针对人的面孔的搜索技术。

  尽管如此,图像搜索还远不能与文本搜索相提并论,IBM的莫兰指出。在搜索引擎习惯观看图片并能用语言对之进行描述之前,在相当长一段时间内,人们还得继续给图像和视频添加文本标签。

  无论如何,在需求的推动下,搜索创新仍不断涌现。随着网络上和公司数据库中信息成PB(Petabyte,1PB=10的15次方)的增加,用于帮助人们发现所需的工具也必须得随之改变。(译/赵红权)

(信息周刊)

0
相关文章