寻找更好的视频搜索技术-信息化专区

寻找更好的视频搜索技术

作者：Aaron Ricadela 编辑：袁晓怡 2007-06-01 04:25

　　近20年来，计算机科学家们一直在努力寻找在大量视频片断中搜索出特定画面的新方法。国际商业机器公司（IBM），微软公司（Microsoft）和学术机构的研究人员的最新研究，使得这种努力离目标更近了一步。

　　在今年八月中旬，在英国剑桥召开的一次会议上，一位来自IBM公司的研究人员首次公开演示了一个被称为“奇迹”（Marvel）的计算机系统。这个计算机系统运用统计技术分析视频片断中的线索之间的关系，比如分析颜色、形状、格式、声音和等等视频片断中的其他线索之间的关系，来帮助识别视频内容。然后系统然后对视频片断进行标记，这样用户就可以倒回去找到每一个单独的画面。这个系统不仅可能给电视新闻制作者带来便利，而且对分析监视视频的人员也可能会有帮助。电脑用户甚至还能用此这项技术来编辑制作家庭电影。

　　IBM研究院的高级经理、项目负责人约翰·史密斯（John Smith）指出，目前的技术仍然停留在依靠搜索内嵌在视频文件中的关键字来找到需要的画面。比如很少有电视台会对视频片断的画面进行大范围标记。即便他们做了，标记的也通常是描述整个节目的关键字，而不是单独的画面。

　　史密斯的智能信息管理小组（Intelligent information management group）编写了一个算法。这个算法能够在美国广播公司新闻网（ABC News）和美国有线新闻网（CNN）数年的节目中，辨别出140个要素，其中包括飞机、动物和天气新闻。这些节目都是从宾夕法尼亚大学（the University of Pennsylvania）那儿获得的。例如，“奇迹”计算机可以分析出火箭发射的70个画面，并且把其中的50个画面放在搜索结果的前100个画面中。这个小组在11月的报告中还将披露最新的研究进展。目前，这个小组正通过把一些要素组合起来，来提高搜索的精确度。比如一个物体的外形像飞机、发出的声音像飞机，所在的场景又是室外。把这些要素结合起来，就可以分析出，这个物体非常可能是飞机。

　　史密斯的团队还与哥伦比亚大学（Columbia University）的数字视频多媒体实验室合作，通过计算机视觉和图像分析技术和各种机器智能技术，分析每个媒体的报道角度和特色，来搜索美国国内和国外媒体的新闻视频片断。

　　哥伦比亚大学电气工程教授张希福（Shih-Fu Chang）认为，视频搜索难度很高，主要是因为视频不具有像文本或图形文档那样的结构。张同时也是数字视频多媒体实验室的主任。张进一步指出，视频片断既缺乏文本文件中句子和段落那样的要素，又没有绘画图像中明显的角、圆和边界等要素。“视频片断中发生的内容，根本没有任何字母或词汇来描述。我们的目标是让所有这些非结构化的数据变得可搜索、可组织。”

　　微软研究院（Microsoft Research）开发了一个系统，通过这个系统，用户用鼠标点击想看的部分，比如某个人的脸，就能看到家庭录像中所有相关镜头。“所有你在视频片断中看到的东西，都会有一个视图。”微软研究员内波意萨·约依奇（Nebojsa Jojic）说。微软的北京实验室也在研究视频搜索技术。另外，卡内基梅隆大学（Carnegie Mellon University）有一个信息媒体（Informedia）项目，专门研究形状、颜色、文本等因素对于不同类型查询（例如查询人或物）的重要性。计算机不断增大的存储空间和不断加快的CPU速度，满足了计算机视频应用的需求，研究人员认为，有关视频搜索技术的研究工作会越来越多。

公司索引：

　　国际商业机器公司

　　微软公司

　　哥伦比亚大学

　　卡内基梅隆大学

（信息周刊）

关注我们