信息化 频道

知乎挑战赛颁奖礼 深度神经网络成NLP主流

      近期,首届“知乎 · 看山杯机器学习挑战赛”历经3 个月的激烈角逐,顺利落下帷幕,来自全球各地的7支优秀算法团队脱颖而出荣获三甲。其中来自北京邮电大学模式识别实验室的 init 团队问鼎冠军

  9 月 2 日,知乎在北京总部举办颁奖礼,现场还有特别环节——「基于人工智能的自然语言处理」主题沙龙。沙龙邀请了创新工场人工智能工程院副院长王咏刚老师,东南大学计算机学院教授、博士生导师漆桂林教授、清华大学计算机系黄民烈副教授、知乎高级副总裁李大海等机器学习和自然语言处理领域的资深专家,和大家现场探讨当前人工智能及 NLP 领域的进展。

1.png

  大佬对谈人工智能 鼓励年轻人志存高远

  在嘉宾对谈沙龙环节,王咏刚一开始便语出惊人,“我觉得人工智能其实是一个很功利的领域,真的是成王败寇”。王永刚认为正是计算机的功利化造成现在深度学习的火爆,但如果回到理论界冷静思考,未来人工智能路还有很长的路要走,并明确表态“从形而上的角度来讲,我绝对不会认为这是唯一的路线”。

  漆桂林对王咏刚老师的发言表示赞同,他也认为深度学习并不是唯一一条路径,并认为符号和数值计算的结合,或许是另外一种方向。知识很重要,而知识如何和数值计算结合到一起,更是一件很难的事情。发言最后,漆桂林教授鼓励现场的年轻人要有更高远的目标,多探索不一样的路径。

  黄民烈对大家追捧机器学习持有不同的看法,他认为现在说深度学习网络已经取得突破还为时尚早。很多高校和企业并没有大公司充足的资源和语料,这种情况下会发现,还是传统的方法更好用。就像李大海说的那样:业界每次向前迈出一个脚步,都和真实的场景和技术的进步,以及数据息息相关。

  深度神经网络成主流 获奖团队作品亮点频现

  据悉,本次获奖团队由知乎根据各参赛队伍所提交的模型在验证数据集上的表现而最终筛选确认。令人惊喜的是,所有获奖的 7 支队伍,都无一例外地使用了各种结构的深度神经网络(Deep Nerual Network,DNN);而传统的文本分类方法,例如支持向量机(Support Vector Machine,SVM)或者朴素贝叶斯(Naive Bayes)等方法,则使用较少。这也间接印证了,在一定程度上,曾经一度沉寂的深度神经网络技术,现在已经成为 NLP 领域的主流。

  除此之外,在对问题进行建模时,所有参赛队伍都将问题转化成了「文本多分类」或者「文本标签预测」的问题,并应用了集成学习的思想,利用多个模型的相互补充来提高成绩。而在训练过程中,大多数团队都选用了交叉熵(Cross Entropy)作为损失函数。同时选手们还针对自己对问题的理解对问题进行了非常多的优化,出现了一些很有亮点的优化方法。例如:

  第一名的 init 团队,在数据增强方面进行了富有创意的工作。init 团队在进行模型训练的时候,通过 delete 和 shuffle 机制来避免训练结果的过拟合,同时保证模型的差异性。init 团队在提交的评审材料中提到,仅仅通过数据增强机制,训练出来的多模型结果通过等权重的 bagging 方式得到的结果已经能够获得优于第二名结果的表现;

  第二名的 Koala 团队,在进行神经网络训练的时候,使用了逐层 boosting 的方法,来提升单个神经网络模型的表现;根据其描述,这个优化可以使多层神经网络的表现提升 1.5 个百分点左右;

  第三名的 YesOfCourse 团队将 tag precition 过程转化成了一个 Recall-Rarank 的两步问题;使用大量的神经网络模型来进行召回,并且将神经网络对标签的预测得分作为 GBRank 的特征输入,并且使用 Pairwise 的方式来对标签的排序进行优化,选择排序后的前 5 个标签作为模型的输出。从 YesOfCourse 团队提交的说明中看出,使用 Recall + Rerank 模型得到的结果,相对于 Non-Linear NN Ensemble 的结果,有千分之二以上的提升;同时,YesOfCourse 还尝试使用了多种 Loss Function 和多种 attention 机制来保证模型间的差异性。

  第五名的 Gower Street & R1 Road 团队,则将数据提供的 topic 的标题信息利用了起来,使用 RNN + Question-Topic Similarity 信息进行模型的联合训练。将单模型的结果从 0.415 提升到了 0.419,并且使用 20 个模型的 ensemble,最终取得了 0.432 的好成绩;

  冠军 init 团队现场技术分享

  作为中文互联网最大的知识社交平台,知乎累积了非常多的高质量文本语料和其他各种各样的数据,这也引发了知乎的思考: 能不能开放部分数据,为 AI 在国内的发展提供一些助力? —— “知乎·看山杯机器学习挑战赛”应运而生。

  本次“知乎·看山杯机器学习挑战赛”虽已结束,但知乎在开放数据上的努力并没有结束。通过“开放数据”,知乎将进一步促进国内机器学习领域的快速发展,希望用高质量数据集为国内技术人才的培养和技术提升带来助力。


特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章