谈到Netflix和《纸牌屋》,你脑子里第一个反应出来的词可能会是“大数据”。且不说Netflix在多大程度上真的使用了大数据技术,它针对不同类型的电影进行“微类型”分类的方式恐怕会让你印象深刻。PingWest曾对此有过报道:Netflix发明了一种叫做“altgenres”的分类方法,至少把影片分成了76897种“微类型”对电影进行解构。通过这种方式,Netflix建立了一个庞大的用户偏好数据库。
不管“大数据”在其中有着多少程度的运用,这种“微类型”的分类方式确实比原有的粗线条归类法更加准确。Netflix的这种分类方式现在也被百度视频借鉴了过来,为用户提供更加精确和个性化的搜索。
百度在2012年曾经收购了“今晚看啥”团队,而今晚看啥就是一家掌握个性化推荐和数据挖掘技术的电影搜索网站。目前,百度视频的相关项目也是由原今晚看啥团队的CTO胡一川带队完成的。具体而言,类似Netflix的“altgenres”,百度视频建立了一个叫做“影视基因库”的项目,它们给所有视频资源都打上了标签,为影视视频定义了几十个维度,如故事情节、情感、地点、时代等,每个维度下都有不同的标签(目前有几千个),以此来描述互联网上的视频。
当用户在搜索时,就可以不再仅仅按照类型、国家、导演和年份等单一维度搜索,而是可以通过自然语言搜索,得到更精确的搜索结果。另外,百度视频还会将百度贴吧和百度知道中用户提问的内容进行关联:当一个用户提问时,系统会通过后台找到匹配的标签,为用户提供符合标签的搜索结果。目前,百度已经涵盖了电影、电视剧、动画、综艺等视频,每个视频有大约30到50个标签。
百度视频数据挖掘和个性化推荐的另一个应用是在移动端。而在百度视频的移动app上,系统会综合收集的搜索、播放和浏览数据,再分析用户的年龄、性别、地域、学历等特征,并结合用户兴趣点,实现个性化的首页展示和推送。
不过,虽然百度视频采用了与Netflix相似的“微类型”分类法,但它仍与Netflix有着多个层面上的不同:
首先,Netflix是基于订阅用户的视频服务提供商,它拥有自己庞大的影视库,甚至会自己拍摄影视作品;而百度视频是个搜索引擎,它的目的是搜罗全网的视频内容(包括长电影和短视频),并针对用户的搜索请求进行更精准的响应。
其次,因为Netflix的订阅用户必须拥有一个账户系统,这样Netflix进行个性化推荐和数据挖掘的时候更有针对性、而且会更加精确。而百度视频基于搜索引擎的特性,更多的针对无账户的用户搜索,进行数据挖掘和分析的时候会更加考虑到全网和匿名用户的特点。
第三,Netflix的服务可以延伸到视频产业的其它部分,甚至可以根据数据分析结果进行上下游的整合,以及实现对潜在热门元素和剧集的预测。而目前百度视频还只是为了让用户更精确地搜索,尚不涉及到视频产业链当中。不过,目前百度视频也在试图对手中的数据进行更多的利用,比如对热门视频的监控:百度视频在综合了一段时间内的视频搜索、播放、贴吧讨论的时候发现,爸爸去哪热度是快乐大本营5倍,而传统收视率监控则显示后者的收视率是前者3倍。由于传统监控的样本少而且只能反应播出瞬间的热度,这样一来,通过百度视频的数据分析就可以得到比传统电视节目监控更精确的监控结果。再比如百度视频指数:百度视频技术团队对当下非常热门的微电影分析之后发现,从2010年以来,科幻、都市、两性话题,以及5到10分钟长度的微电影更受人们欢迎。
而且,与Netflix独立的服务不同,百度视频可以通过内部的技术平台开放给其它部门,跟百度的其它部门实现资源共享。因此,爱奇艺等视频网站也可以调用百度视频技术团队的数据挖掘结果,来指导自己的视频版权购买和个性化推荐。