编者按:谷歌、微软、雅虎以及其他公司在着手开发新一代技术,以自动化并个性化信息搜索。
搜索引擎,也就是那个小小的浏览器工具,你在其中输入一个词,并点击回车,之后就满怀希望开始等待,可它返回的往往是数百万个毫不相关的互联网地址。据微软公司(Microsoft,下称微软)称,人们平均要花11分钟的时间才能找到所需内容,而且还有一半的人在达成此目标之前即中途放弃搜索。据高德纳公司(Gartner)估计,由于访问者根本无法找到所需内容,有一半的潜在Web销售因此而丧失掉了。
谷歌公司(Google)、微软、雅虎公司(Yahoo)、以及其他数十家专业搜索公司,其中也包括那些专注于商业领域的搜索公司在内,已开始展开新一代搜索技术的开发竞赛,以帮助人们更高效地获取所需信息。有了这些新兴的搜索工具,人们便无需再使用第一代搜索引擎能理解的混合语言一遍又一遍地简化搜索。他们将能用英语或其他语言查询问题,或者根本不提出问题,只是基于其以前的查询或所用的应用软件,就能自动收到查询结果。
用户实际得到的搜索结果将会包括音频和视频文件、PowerPoint幻灯和其他信息图表、以及结构化数据,这些信息全部精选自Web、PC、以及公司数据库,并最终汇成统一的信息流。假以时间,图像搜索甚至能在图像中检测信息,而无需对元数据进行解析。
搜索结果将会更加精确,并经过自动归纳总结,按照个人偏好依相关程度进行排序。聚类、标签云(Tag Cloud)、和制图比例尺等可根据参数扩大或缩小搜索的新表达方法以及自动分类,可以简化对搜索结果的处理。同时,采用标签服务、社会性书签服务(Social Bookmarking)以及共享搜索等方式,充分发挥人类智慧和群体智慧的力量,搜索引擎将得到极大改进。
而且,我们无需翘首以盼,等待这些高速搜索引擎的出现。如下一些高级功能已随处可见。
语义搜索
当今多数搜索引擎都要求使用速记语言,也就是某些人称作Keywordese的语言。“那就像跟一个2岁小孩说话,” Powerset公司首席执行官(CEO)巴尼?佩尔(Barney Pell)形容道,Powerset是一家将自然语言处理应用于搜索领域的初创公司。未来十年,佩尔指出,搜索引擎“理会意思”的本领会更为高强。
Powerset公司、Hakia公司、以及其他一些公司已开始开发新的搜索引擎,这些搜索引擎应用语言学解释问题,分析Web内容,并且如果必要的话,通过与用户的互动来优化搜索结果。Hakia公司CEO里萨?博坎(Riza Berkan)憧憬说,未来搜索引擎会成为“知识渊博的工具,如果我们能教会它们如何讲话、如何理会用户的意思。 ”
语义搜索引擎对语言进行解析,就像学生学英文一样,用字典和辞典来解释字的意思,并依据句法的基本规则将之连起来。比如,“国际商业机器公司(IBM)于1996年斥资7.43亿美元买下了Tivoli公司”这句话,包括了购买、购买的主语、购买的时间、以及买入价等几个概念。
迄今为止,尽管Hakia公司的搜索引擎已能够利用语言提示在它自己甚至都不能领会的概念中发现大致意思,但人们应用语言规则并定义分类以缩小搜索范围的做法仍然有助于推进搜索引擎的开发。“如果它能做到完全自动化,我们就能宣告自己发明了新人类,”博坎调侃道。
谷歌公司(Google)和雅虎公司(Yahoo)等在开发Web搜索引擎时也都会雇佣语言学家,尽管他们的搜索引擎还远不能与Hakia或 Powerset的语义搜索相提并论。谷歌的搜索引擎能进行拼写检查,并返回所搜索的单词的同义词和变体,但并不能始终准确地解答疑问。
联邦保存研究所(Federal Preservation Institute)的历史保存学习门户(Historic Preservation Learning Portal),采用企业搜索公司Autonomy公司的技术。该网站存有大量有关记录保存规则和保存方法的文档,研究所应用语义搜索帮助那些非专家类的用户发现其所需信息。
“他们应用这些工具,用普通语言即可提问,而其问题中并不需带有关键词可能会含的技术术语。”该研究所总监康斯坦丝?拉米雷(Constance Ramirez)介绍说。比如说,有个网站访问者可能会询问加里福尼亚州红屋顶房屋的保存情况,“看到返问的各类结果都是相关的,那种感觉真是妙不可言。”拉米雷回味道。
IBM也在致力于医疗卫生和政府等领域的专业文本分析研究。客户利用其名为OmniFind Analytics的搜索引擎,甚至可以分辨诸如情绪这样的细枝末节之处,而且不管搜索到的文档对某个主题的记录或分析是积极的还是消极的,客户还可对公司内使用的专业词汇、概念、以及专有名词进行定义。
无关键词搜索
意外的好运往往寓意深刻。目前仍处于开发阶段的这类搜索引擎无需提示,即会根据你以前的查询,替你完成搜索;否则他们可能会在背景中搜索,根据 Word文档或Excel电子表中的上下文内容提供相关信息。苹果公司(Apple)的iTunes项目与此类似,有点儿照猫画虎的意思,如果听者从硬盘中播放了一部音乐作品,iTunes Store即会显示相关的其他音乐。
说着容易,做起来难。“在搜索领域,遭遇意外的好运比登天还难。”国际数据公司(IDC)分析师苏珊?费尔德曼(Susan Feldman)指出。在这种计算密集型的环境中,设计接口着实不易,她补充道。
MediaRiver公司开发了一种可下载的搜索工具,这款名为Watson的产品,无需用户发出查询请求,即可利用Web浏览器或PC应用程序中的信息对Web进行搜索,并返回结果。这是一款杰出的产品,可不是一项好生意,MediaRiver的CEO阿尔?瓦塞尔博格(Al Wasserberger)总结说。但是,Watson在MediaRiver的ClickSurge Widget中找到了用武之地,终于可以再现活力,后者负责确定网页上的重要概念,并将相关链接嵌入到网页的其他位置。Blinkx公司有款与此近似的产品Pico,并将之在网站中置于次要地位,因为这家公司要全情贯注于视频搜索领域。
尽管如此,无关键词搜索的前景依然是一片光明。谷歌和雅虎长期以来都一直在不断提醒用户,他们可以订购搜索,当有新结果产生时他们即会收到电子邮件。用户只需轻轻点击一下StumbleUpon 和Google Dice等浏览器工具栏按钮,系统即可根据Web历史记录将之带到推荐的站点上。雅虎的Y!Q服务和Mozilla公司的火狐浏览器(Firefox)都具备在网页上突出显示某个字或词的功能,用户只需于其上点击一下,即可执行搜索。
雅虎的这一服务可以增强搜索页上下文的关联性。比如,在有关大学橄榄球的网页上搜索“佛罗里达鳄鱼队(Florida Gators)”,返回的结果肯定不会跟大沼泽国家公园(Everglades)中的那类爬虫有关。
个性化搜索
“内战”这个词,在不同的人心中会激起完全不同的情感,其含义也大相竞庭。在美国历史上,它意味着一个国家的诞生;而在利比亚,它是武装冲突的代名词,就像枪与玫瑰乐队的那首歌唱得一样。搜索引擎对搜索者了解得越多,它对搜索者意图的猜测也才会越有根据。
从用户数量来看,谷歌的个性化主页iGoogle是该公司旗下成长最为迅速的产品。谷歌明白用户需要什么,并通过RSS种子和谷歌Gadgets来体现其对用户需求的理解。另一方面,用户也能在谷歌的首页上创建推荐(Recommendations)标签,谷歌搜索系统可据这些用户以前的搜索提供相关信息,并置入该标签内。
拥有谷歌账户的用户均有机会将其曾进行的搜索保存起来,“疑问因而解除”,谷歌个性化部门技术负责人塞普?卡姆瓦尔(Sep Kamvar)指出。比如,有个女子对计算机感兴趣,而且她会定期搜索“苹果”这个词,这说明与其说她对计算机有兴趣,不如说她对计算机厂商的兴趣更大。利用存档数据,谷歌可通过浏览器工具栏按钮、iGoogle标签或者网络搜索历史(Web History)页面来自动为用户推荐所需信息。
大量与搜索相关的信息保存在谷歌的数据库中这一事实,引发了有关隐私的担忧;基于同样的原因,雅虎等谷歌竞争对手也不再毫无畏惧地长驱直入个性化搜索领域。谷歌争辩说,它在使用历史搜索数据时所公开的透明度,恰是其为避免引起用户激烈反对而采取的关键措施。“如果我们打算使用你搜索过的某些内容,我们希望你能了解这一点,而且你有权对此做出改变。”卡姆瓦尔表示。
商业环境中也需要个性化。例如,Vivisimo公司搜索产品的管理程序给招聘人员的人事文档的赋值,比如说,就可以比给销售人员的高。“内部网的一个优势在于,人们无需再以匿名的形式存在。”IBM OmniFind搜索平台部门杰出工程师(Distinguished Engineer)兼产品经理迈克?莫兰(Mike Moran)指出。OmniFind搜索平台有4个版本:企业版、分析版、可在搜索结果中添加原文链接的版本、以及与雅虎共同倡议的免费版。出版商锐德商讯集团(Reed Business)搜索部门的首席运营官(COO)格雷伊姆?麦克雷肯(Graeme McCracken)强调说,事实表明,经常使用搜索的用户最需要个性化,而那些偶尔一用网络的访问者通常也对个性化没什么兴趣。
社会搜索
网络出现伊始,搜索即有其社会性的一面。雅虎创立之初,网站不过是个链接列表,只是列出了那些公司创始人认为有趣的网站链接。谷歌的 PageRank算法,其原理某种程度上也只是基于网站上一个页面通向其他页的链接数量。随着Web 2.0技术的兴起,搜索引擎也开始进一步推动社会搜索与社会性书签服务、标签服务、共享搜索、以及功能随用户数量增加而改善的搜索系统等概念的融合。
雅虎的部分战略将以其社会特性而显得卓而不群,雅虎搜索副总裁提姆?梅尔(Tim Mayer)指出。Yahoo Answers可针对Web查询提供人性化的解答,最近该服务已开始出现在常规搜索结果中。此外,雅虎收购了社会性书签站点Deli.cio.us,此举也可能会给雅虎带来一些变化,比如将社会性书签服务变为雅虎网站的一个标准特性。
微软已经拥有名为Collections的共享搜索特性,人们可利用该特性共享注释图。目前,微软也在寻求解决办法,以在Web范围内部署可视的、用户生成的“标签云”,该公司搜索和广告部门高级副总裁萨特亚?内德拉(Satya Nadella)介绍说。企业搜索公司Vivisimo公司也在对一项特性进行测试,公司员工利用该项特性,可以给搜索结果打标签、评级、分类、并做评注。而Connectbeam公司则将标签和社会性书签技术作为其他企业搜索产品上的一个层来销售。
标签云和社会性书签服务也有局限性。标签太多会降低搜索的可靠性,太少又有可能导致相关信息的大量堆积,Autonomy公司CEO迈克?林奇(Mike Lynch)分析道。领导着谷歌反垃圾团队的高级工程师马特?卡茨(Matt Cutts)表示,标签和社会性书签服务是垃圾邮件制造者和搜索引擎优化滥用者攻击的主要目标。
无论如何,谷歌已开始推进社会搜索服务。在iGoogle服务中,“魔术标签”可基于其他谷歌用户创建的标签,提供与搜索查询(比如说“旅行”一词)相关的谷歌小工具(Gadgets)和Feeds菜单。“我太喜欢这种算法了,因为它提供的Gadgets并不包括‘旅行’这个词本身在内,但却极为有用。”卡姆瓦尔表示。
Collarity公司则在其Relevance Engine中,运用“协同过滤”将上述概念又推进了一步。福克斯新闻网(FoxNews.com)即使用该个性化搜索引擎。如果某人在该站点上搜索“伊拉克”,这一搜索引擎会根据以前其他人在搜索“伊拉克”这个词之后的行为,列出推荐的链接清单。尽管如此,搜索引擎最终只能将那些在伊拉克新闻上花费大量时间的用户的浏览习惯纳入推荐引擎,因为这些人代表着对伊克拉有高度兴趣,而且应该也具备更多相关知识的一群人。“我们认为,最重要的事是在相关领域内,找到最能解答你的问题的人。” Collarity公司市场总监鲍勃?拉斯塔德(Rob Rustad)表示。
搜索引擎大比拚
领先者
Autonomy公司 企业搜索产品支持归纳、聚类、以及分析等功能。
Fast公司 企业搜索平台提供移动搜索、个人搜索选择。
谷歌公司 最新关注点在于个性化的搜索结果,并提供用于商业市场的搜索工具。
微软公司 除了PC和Web搜索,还推出了Live Search Maps、Live Search for Mobile等服务。
雅虎公司 通过收购Del.icio.us,大力推进社会性搜索,同时也推出了Yahoo Answers服务。
挑战者
Collarity公司 Relevance Engine根据其他人曾经搜索的内容对搜索结果进行过滤。
Endeca公司 信息访问平台(Information Access Platform)自动对搜索结果进行分类。
Hakia公司 语义网(Semantic Web)搜索引擎目前处于Beta版测试中。
国际商业机器公司 OmniFind平台有企业版和分析版、以及与雅虎共同发起的免费版。
Like.com 可视搜索引擎处于测试中。
MediaRiver公司 ClickSurge平台利用网页内容搜索或推荐相关内容。
Powerset公司 目前与施乐帕洛阿尔托研究中心(Xerox PARC)一道,共同开发自然语言Web搜索引擎。
Vivisimo公司 Velocity企业搜索引擎在聚类中对结果进行分类。
结果导向
“谁说一个编辑框外加10个蓝色链接就是搜索引擎了?”微软的内德拉质疑道。这个问题提得好,但在搜索的新世界里,它就显得不那么相关了。现在,人们已发现了用于显示搜索结果的新办法,从自动化聚类和分类到对问题的实际解答,各种都有。在微软的Live Search中,键入“西雅图交通”几个字,就会有一幅地图弹出来,上面绘有公路,并用色码标示出路面上车辆的行驶速度。与此近似,在谷歌网站上键入“亚伯拉罕?林肯的生日”,第一个搜索结果会显示实际日期——1809年2月12日,然后下面跟着一系列相关地址链接。
Vivisimo公司同时也运行着一个名为Clusty的消费者搜索引擎,该网站可通读网页的文本内容,并通过语义理解,在搜索返回的前200个文档中,迅速建立分类。Vivisimo的Clustering Engine可以确定诸如“漂亮”和“华丽”这样的词,其意思之间存在关联性,然后根据这类共性对搜索结果进行分组。“主题可帮助人们根据上下文进一步理解数据的含义,并且大致明白信息是如何被组织到一起的。”该公司市场副总裁丽贝卡?汤姆逊(Rebecca Thompson)指出。
在商业环境中,计算机生成的聚类显得尤为重要。因为在商业环境中,用户不能根据某个站点的流行程度来确定其相关性。与Vivisimo一样, Endeca公司也使用自动分类的办法,并采用“导航”的方式,他们这样做基于如下理论:人们通常不对特定的内容进行搜索,而其期望搜索引擎能帮助发现的内容,往往是他们不知道如何一清二楚地提问的。
美国最大的家具建材零售商家得宝公司(Home Depot)的网站即由Endeca技术驱动,从中可管窥Endeca前述想法在实践中的应用。例如,对“冰箱”一词的搜索会产生大量信息,并依类别、价格、以及品牌等进行分组,而且对于每一组都能进一步进行搜索。分类通常以每个搜索条目的元数据为基础。“未来的设想是,对信息进行归纳总结,整理成用户期望看到的形式。” Endeca公司战略拓展与市场副总裁马特?艾什纳(Matt Eichner)介绍说。
Factiva公司的搜索工具采用Fast Search & Transfer公司的技术,用于发现发表在网络日志、媒体站点上有关某个品牌的任何内容,并将这些内容分为喜欢的和不喜欢的,还对之进行相应的量化,辅以线图,以显示人们的认识随着时间而改变的过程。
另外一个较早利用搜索引擎收集新知识的例子是谷歌Trends。它是谷歌实验室(Google Labs)的一个项目,可以几乎同时满足搜索者完全不同的兴趣[比如,太浩湖(Lake Tahoe)和雪橇]。“如果计算机能进一步理解这个世界,那又会是怎样的情形?”卡茨自问自答地说,“如果你能解决这个问题,你就能真正理解人们在搜索些什么。”
多面性搜索
今天的Web搜索引擎可以对超文本链接标记语言(HTML)文件、PDF格式文件、Office文件、以及音频、视频和图像元数据进行筛选。而未来的搜索引擎不仅可摆脱对元数据的依赖,对图像、音频、以及视频直接进行搜索,还能在其他搜索结果中纳入这些形式的内容。“你不会看到分别面向音频、视频、以及文本的不同系统。” Autonomy公司的CEO林奇简捷地总结道。
尽管并非总是能面向不同数据类型建立恰当的关联模型,谷歌的通用搜索仍可谓这一领域的开先河者;其他进展还包括:Autonomy公司的技术可查觉情景的变化,并将视频分配到可搜索的内容中。而且,Autonomy公司、Sonic Foundry公司、以及Nexidia公司的搜索引擎都具备对视频或音频的音轨进行搜索的能力。
销售衣服和服饰的站点like.com,算得上说明图像搜索技术发展方向的一个典型例子。利用该网站提供的类似搜索(Likeness Search),用户可依各自的尺寸,从颜色、外形、以及款式等方面提供个人的设计参考意见。目前,微软和谷歌都已开发出了针对人的面孔的搜索技术。
尽管如此,图像搜索还远不能与文本搜索相提并论,IBM的莫兰指出。在搜索引擎习惯观看图片并能用语言对之进行描述之前,在相当长一段时间内,人们还得继续给图像和视频添加文本标签。
无论如何,在需求的推动下,搜索创新仍不断涌现。随着网络上和公司数据库中信息成PB(Petabyte,1PB=10的15次方)的增加,用于帮助人们发现所需的工具也必须得随之改变。(译/赵红权)
(信息周刊)