e-works数字化企业网  »  文章频道  »  先进制造技术  »  先进制造技术综合

机器学习近年来之怪现状

2018/7/13    来源:ICML2018    作者:Zachary C. Lipton  Jacob Steinhardt      
关键字:机器学习  
本文细数了近年来机器学习研究的几大「怪现状」。

    人工智能领域的发展离不开学者们的贡献,然而随着研究的进步,越来越多的论文出现了「标题党」、「占坑」、「注水」等现象,暴增的顶会论文接收数量似乎并没有带来更多技术突破。最近,来自卡耐基梅隆大学的助理教授Zachary C. Lipton与斯坦福大学博士Jacob Steinhardt提交了一篇文章《Troubling Trends in Machine Learning Scholarship》,细数了近年来机器学习研究的几大「怪现状」。

1 引言

    总体来说,机器学习(ML)的研究人员正在致力于数据驱动算法知识的创建与传播。在一篇论文中提到,研究人员迫切地想实现下列目标的任一个:理论性阐述可学习内容、深入理解经验严谨的实验或者构建一个有高预测精度的工作系统。虽然确定哪些知识值得探究是很主观的,但一旦主题确定,当论文为读者服务时,它对社区最有价值,它能创造基础知识并尽可能清楚地进行阐述。

    什么样的论文更适合读者呢?我们可以列出如下特征:这些论文应该(i)提供直观感受以帮助读者理解,但应明确区别于已证明的强有力结论;(ii)阐述考量和排除其他假设的实证调查;(iii)明确理论分析与直觉或经验之间的关系;(iv)利用语言帮助读者理解,选择术语以避免误解或未经证实的内容,避免与其他定义冲突,或与其他相关但不同的概念混淆。

    尽管经常偏离这些理想条件,但机器学习近期仍然在持续进步。在本文中,我们关注以下四种模式,在我们看来,这些模式是机器学习领域当下研究的倾向:

    1.无法区分客观阐述和猜想。

    2.无法确定达到好效果的来源,例如,当实际上是因为对超参数微调而获得好效果的时候,却强调不必要修改神经网络结构。

    3.数学性:使用令人混淆的数学术语而不加以澄清,例如混淆技术与非技术概念。

    4.语言误用,例如,使用带有口语的艺术术语,或者过多的使用既定的技术术语。

    虽然这些模式背后的原因无法确定,但很可能包括社区大幅扩张,导致审查人员数量不足,以及学术和短期成功衡量标准(如文献数量、关注度、创业机会)之间经常出现的错位激励。虽然每种模式都提供了相应的补救措施(呼吁「不要这样做」),我们还是想讨论一些关于社区如何应对此类趋势的探索性建议。

    随着机器学习的影响扩大,研究此类论文的人员越来越多,包括学生、记者和决策者,这些考量也适用于更广泛的读者群体。我们希望通过更清晰精准的沟通,加速研究步伐,减少新晋研究人员的入门时间,在公共讨论中发挥建设性的作用。

    有缺陷的学术研究可能会误导大众、阻碍未来研究、损害机器学习知识基础。事实上,在人工智能的历史上,甚至更广泛的科学研究中,很多问题都是循环往复的。1976年,Drew McDermott就批判AI社区放弃了自律,并预言「如果我们不能批评自己,就会有别人来帮我们解决问题」。类似的讨论在在80年代、90年代和00年代反复出现。在心理学等领域,糟糕的实验标准削弱了人们对该学科权威的信任。当今机器学习的强劲潮流归功于迄今为止大量严谨的研究,包括理论研究和实证研究。通过加强更明了的科学思考和交流,我们才可以维持社区目前所拥有的信任和投资。

2 免责声明

    本文旨在激发讨论,响应ICML机器学习辩论研讨会关于论文的号召。虽然我们支持这里的观点,但我们并不是要提供一个完整或平衡的观点,也不是要讨论机器学习这一科学领域的整体质量。在复现性等许多方面,社区的先进标准远远超过了十年前的水平。我们注意到,这些争论是我们自己发起的,攻击的也是我们自身,关键的自省都是我们自己人做出的,而不是来自局外人的攻击。我们发现的这些弊病不是某个人或某个机构独有的。我们已经身处这种模式之中,将来还会重蹈覆辙。揭示其中一种模式不会让一篇论文变差或谴责论文的作者,但是我们相信,揭示这种模式之后,所有论文都会因避开这种模式而得到质量的提高。我们给出的具体例子将涉及(i)我们自身及(ii)那些我们仰慕的著名研究者或机构,不会挑选那些容易受到本文严重影响的年轻学者或没有机会与我们平等对话的研究者。身处这样一个可以自由获取知识、表达观点的社区,我们感到非常欣慰。

3 不良趋势

    在下面的每个小节中,我们(i)首先描述一个趋势;(ii)然后提供几个例子(包括抵制这一趋势的正面例子);最后解释该趋势带来的后果。指出个别论文的弱点可能是一个敏感的话题。为了尽量减少这种情况,我们选择了简短而具体例子。

    3.1 解释与推测

    对新领域的研究往往涉及基于直觉的探索,这些直觉尚未融合成清晰的表达形式。于是推测成为作者表达直觉的一种手段,但是这种直觉可能还无法承受科学审查的所有压力。然而,论文常以解释为名行推测之实,然后由于科学论文的伪装和作者假定的专业知识,这些推测被解释为权威。

    例如,围绕一个内部协变量转移的概念形成了一个直观的理论。关于内部协变量转移的论述从摘要开始,似乎陈述了技术事实。然而,关键术语不够清晰,最终无法得出一个真实值。例如,论文指出,通过减少训练过程中隐激活层分布的变化,批处理规范化可以获得改进。这种变化是用哪种散度衡量的?论文中没有阐明,并且有些研究表明,这种对批处理规范化的解释可能偏离了 的标准。然而,中给出的推测性解释已经被重复为一种事实,例如中说,「众所周知,由于内部协变量转移问题,深层神经网络很难优化。」

    我们也同样对伪装成推测的解释感到不安。JS写道,「无关特征的高维性和丰富性……给了攻击者更多的空间来攻击」,而没有进行任何实验来衡量维度对攻击性的影响。JS引入了直观的覆盖概念,但没有对其进行定义,并将其当做一种解释来运用,如:「缺少覆盖的一个表现是不确定性估计较差,无法生成高精度的预测。」回顾过去,我们希望交流不够具体化的直觉,这些直觉对论文中的研究很重要,我们不愿把论点的核心部分看作推论。

    与上述例子相反,把推测与事实区分开来。这篇论文介绍了dropout正则化,详细推测了dropout和有性繁殖之间的联系,但「Motivation」一节明确地隔开了这一讨论。这种做法避免了混淆读者,同时允许作者表达非正式的想法。

    在另一正面例子中,提出了训练神经网络的实用指南。在这篇论文中,作者谨慎地表达了不确定性。该论文没有把这些指南当成权威性的东西,而是这样表达:「虽然这些建议……来自多年的实验和一定程度的数学证明,但它们应该受到挑战。这是一个良好的起点……但没有得到什么正式验证,留下许多问题,可以通过理论分析或扎实的比较实验工作来回答」。

    3.2 未能确定经验成果的来源

    机器学习同行评审过程重视技术创新。也许是为了让审稿人满意,许多论文强调了复杂的模型(这里提到的)和奇特的数学表达式(见3.3)。虽然复杂的模型有时是合理的,但经验上的进步往往通过其它方式实现:巧妙的问题公式、科学实验、优化算法、数据预处理技术、广泛的超参数调整,或者将现有方法应用于有趣的新任务。有时,把提出的很多技术相结合可以获得显著的经验结果。在这些情况下,作者有责任向读者阐明实现文中的成果需要哪些技术。

    但很多时候,作者提出了许多缺乏适当变化的控制变量研究,掩盖了经验成果的来源。实际上,有时改善结果的原因只有一个变化而已。这会给人一种错误的印象,认为作者做了更多的工作(通过提出几项改进),而实际上他们做得并不够(没有进行适当的变量控制)。此外,这种做法会使读者误以为提出的所有改变都是必要的。

    最近,Melis et al.阐明,很多已发表的改进技术实际上要归功于超参数的调节,而这原本被认为是在神经网络中进行复杂创新的功劳。与此同时,自1997年以来几乎没有修改过的经典LSTM排名第一。如果早点知道关于超参数调节的真相,而没有受到其它干扰,AI社区可能受益更多。深度强化学习和生成对抗网络也遇到了类似的评估问题。更多关于经验严谨性失误及其后果的讨论详见。

    相比之下,许多论文进行了很好的控制变量分析,甚至追溯性地尝试隔绝成果来源也可能导致新的发现。此外,控制变量对于理解一种方法来说既不是必要的也不是充分的,甚至在给定计算约束的情况下也是不切实际的。可以通过鲁棒性检查(它发现现有的语言模型处理屈折形态的效果很差)以及定性错误分析来理解方法。

    旨在理解的实证研究甚至在没有新算法的情况下也能起到启发作用。例如,探究神经网络的行为可以识别它们对对抗干扰的易感性。细致的研究还经常揭示挑战数据集的局限性,同时产生更强的基线。研究了一项旨在阅读理解新闻段落的任务,发现73%的问题可以通过看一个句子来回答,而只有2%的问题需要看多个句子(剩下25%的例子要么模棱两可,要么包含共指错误)。此外,更简单的神经网络和线性分类器的性能优于此前在这项任务中评估过的复杂神经结构。本着同样的精神,分析并构建了视觉基因组场景图数据集的强基线。

责任编辑:程玥
本文来源于互联网,e-works本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供,并以尽力标明作者与出处,如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐