当前位置: 首页 > 科技观察

2019年ML&NLP领域十大研究热点

时间:2023-03-15 15:19:52 科技观察

知名NLP博主SebastianRuder的年度报告!2019年过去了,对于AI行业来说,过去的一年可谓是“进”的一年。一方面,整个人工智能行业的研究热情高涨,推动了人工智能技术的快速发展;发展的背后,技术的局限性日益凸显。研究人员也在积极探索这些局限性,提出了无数新方法和研究方向。但有哪些方法和研究方向能够脱颖而出并产生较大影响呢?有多少值得来年进一步探索?NLP领域知名博主SebastianRuder博士根据自己的研究工作撰写了总结报告。看看他是怎么说的:这篇文章总结了2019年ML和NLP领域我认为最激动人心和最有影响力的十大研究方向。针对每个热点,我会总结过去一年取得的主要进展,简要说明原因我觉得很重要,对未来做一个小小的展望。这十大研究热点如下:通用无监督预训练“中奖彩票”子网络神经正切核无监督多语言学习更稳健的ML和NLP科学研究基准数据集修复NLG中的解码错误训练模型高效、长程Transformer更可靠的分析方法1.通用无监督预训练1.发生了什么?受BERT(Devlinetal.,2019)及其变体的流行影响,无监督预训练在过去一年中一直是NLP领域的热门研究方向。各种BERT变体已经在多模态环境中使用,主要涉及图像、视频和文本环境(如下图所示)。VideoBERT(Sun等人,2019年)是BERT的最新多模式变体,它从食谱(上图)生成视频“令牌”,并根据视频令牌(下图)预测不同时间尺度的未来令牌。无监督预训练也开始“入侵”以前由监督方法主导的领域。例如:在生物学中,一些研究人员在蛋白质序列上预训练Transformer语言模型(Rivesetal.,2019);在计算机视觉方面,一些研究人员还使用了包括CPC(Hénaff等人,2019年)、MoCo(He等人,2019年)和PIRL(Misra&vanderMaaten,2019年)在内的方法以及一种自我监督的方法,包括BigBiGAN生成器(Donahue&Simonyan,2019),用于提高ImageNet上的样本效率和图像生成;etal.,2019)或双向CPC(Kawakamietal.,2019)在训练数据较少的情况下优于最先进的模型。2.为什么重要?无监督预训练可以在标记样本较少的数据上训练模型,这为以前数据要求不理想的许多不同领域的应用开辟了新的可能性。3.接下来是什么?无监督预训练仍有很大的改进空间,尽管迄今为止它在个别领域取得了长足进步,但未来关注如何更紧密地集成多模态数据将很有趣。二、“中奖彩票”子网1、发生了什么事?在Frankle和Carbin2019年的研究中,他们发现了“winningticket”现象,即随机初始化的密集前馈网络中的一些子网络初始化得非常好,以至于单独训练这些子网络可以达到与训练整个网络相同的水平。这些网络具有相似的准确率,如下图所示。在不同的修剪率下测试了中奖彩票子网络(实线)与随机采样子网络(虚线)的准确性(Frankle&Carbin,2019)。虽然最初的剪枝过程只适用于小型视觉任务,但后来的工作(Frankle等人,2019)在训练的早期应用了剪枝而不是初始化,这使得剪枝过程可以找到更深模型的小子网络。Yuetal.,(2019)还在NLP和RL模型中发现了LSTM和Transformer的“中奖彩票”初始化。尽管“中奖彩票”仍然很难找到,但好消息是这些“中奖彩票”似乎可以在不同的数据集和优化器之间转移(Morcos等人,2019)。2.为什么重要?今天的神经网络变得越来越大,训练和预测的成本也越来越高。如果能够识别出具有可比性能的小型子网络,则可以用更少的资源进行训练和推理,从而加快模型迭代速度,并为设备上计算和边缘计算提供新的应用场景。3.接下来是什么?当前寻找“中奖彩票”的成本仍然太高,无法在计算资源匮乏的环境中提供实际好处。一种在修剪过程中不易受噪声影响的更强大的一次性修剪方法可能会缓解这种情况。研究“中奖彩票”的特殊之处还可以帮助我们更好地理解神经网络的初始化及其学习动态。3.神经切核1.发生了什么事?这一系列的研究可能有些违反直觉,具体来说无限宽的神经网络比窄的神经网络在理论上更容易研究。研究表明,在无限宽度的情况下,神经网络可以近似为具有神经切线核的线性模型(NeuralTangentKernel,NTK;Jacot等人,2018)。下图是其训练过程的动态图解。动画中可以看到原文中不同α因子的NTK线性模型的动态学习过程,NTK被可视化为一个椭圆(来源:Rajat的博客)。然而,在实践中,这些模型的性能不如有限深度模型(Novak等人,2019年;Allen-Zhu等人,2019年;Bietti和Mairal,2019年),这限制了新发现对标准方法的应用。然而,最近的工作(Li等人,2019年;Arora等人,2019年)已经显着缩小了与标准方法的性能差距(有关其他NeurIPS2019论文,请参阅ChipHuyen的博客文章,https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html)。2.为什么重要?NTK可能是我们分析神经网络理论行为的最强大工具,尽管它有其局限性,即实际神经网络的性能仍然优于NTK对应物。尽管该研究方向的理论见解至今尚未转化为实证成果,但或许能帮助我们打开深度学习的黑匣子。3.下一步是什么?与标准方法的差距似乎主要是由于此类方法的广度有限,这可能会反映在未来的工作中。这也有望帮助将无限宽度限制下的一些理论见解转化为更现实的设置。最终,NTK可能会阐明神经网络的训练动态和泛化行为。4.无监督多语言学习1.发生了什么?多年来,跨语言表征主要集中在词级表征上。在无监督预训练的基础上,过去一年见证了多语言BERT、XLM(Conneau&Lample,2019)和XLM-R(Conneauetal.,2019)等跨语言模型的深入发展。尽管这些模型不使用任何明确的跨语言信号,但即使没有共享词汇或联合训练,它们也能惊人地跨语言泛化(Artetxe等人,2019年;Karthikeyan等人,2019年;Wu等人,2019年).这些深度模型还导致无监督MT的改进(Song等人,2019年;Conneau&Lample,2019年),在前一年(2018年)取得的进步的基础上,从更具原则性的组合中获得改进(Artetxe等人.,2019).另一个令人兴奋的进展是从现成的预训练英语表示中导出深度多语言模型(Artetxe等人,2019年;Tran,2020年),如下图所示。Artetxe等人的单语迁移方法的四个步骤。(2019)。2.为什么重要?即用型跨语言表示需要更少的非英语语言样本来训练模型。此外,当有英文标记的数据可用时,这些方法几乎可以实现零样本传输。最终,这些方法可以帮助我们更好地理解不同语言之间的关系。3.下一步是什么?目前尚不清楚为什么这些方法在没有任何跨语言监督的情况下效果如此之好。更好地理解这些方法的工作原理将使我们能够设计出更强大的方法,也可能揭示对不同语言结构的一些见解。此外,我们不仅要关注零样本迁移,还要考虑目标语言中的少样本学习问题。5.目前开发更健壮的基准数据集肯定是一团糟。-聂等。(2019),引自莎士比亚《哈姆雷特》(丹麦登马克州有什么烂东西,肯定有什么乱七八糟的东西)1.发生了什么事?最先进的模型也难以与最近开发的NLP数据集相抗衡,例如HellaSWAG(Zellers等人,2019年)。研究人员需要手动过滤样本,以明确仅保留那些未能通过最先进模型的样本(参见下面的示例)。“human-in-the-loop”对抗性管理过程可以重复多次,以创建对当前方法更具挑战性的数据集,例如最近提出的AdversarialNLI(Nieetal.,2019)基准。一点。即使对于最先进的模型,来自HellaSWAG数据集的多项选择句子完成示例也很难回答。最困难的例子位于一个复杂的“金锁区”,大致由三个上下文句子和两个生成的句子组成(Zellers等人,2019)。2.为什么重要?许多研究人员观察到,当前的NLP模型并没有学习它们应该学习的内容,而是采用浅层启发式方法并将表面线索纳入数据中(又名“聪明的汉斯时刻”)。随着数据集变得更加健壮和难以学习,我们希望(并强制)模型最终学习数据中真正的潜在关系。3.下一步是什么?随着模型变得更好,大多数数据集将需要不断改进或迅速过时。需要专门的基础设施和工具来促进这一过程。此外,应首先在数据集上运行合适的基准测试方法,例如包括使用不同数据变体(例如不完整输入)的简单方法和模型,以使数据集的初始版本尽可能稳健。6.用于科学研究的ML和NLP1.发生了什么?机器学习在基础科学问题上取得了一些重大进展。例如,有研究(Pfauetal.,2019)将深度神经网络应用于蛋白质折叠和多电子薛定谔方程。在自然语言处理方面,即使是标准方法与领域专业知识相结合也会产生令人兴奋的影响。其中一项研究使用词嵌入技术来分析材料科学文献中的潜在知识(Tshitoyan等人,2019年),以使用它来预测材料是否具有某些特性(见下图)。使用在不同时间段的摘要上训练的词嵌入来预测未来摘要中将研究哪些材料,如铁电材料(a)、光伏材料(b)和拓扑绝缘体(c),与所有候选材料相比,更有可能研究前50种预测材料(Tshitoyan等人,2019)。在生物学中,很多数据,比如基因和蛋白质,本质上都是序列数据。因此,自然而然地使用NLP方法(例如LSTM和Transformer)进行蛋白质分类(Strodthoff等人,2019年;Rives等人,2019年)。2.为什么重要?科学可以说是ML最具影响力的应用领域之一。解决方案可以对许多其他领域产生重大影响,并有助于解决实际问题。3.下一步是什么?从物理问题中的能量建模(Greydanus等人,2019年)到求解微分方程(Lample&Charton,2020年),ML方法一直在科学领域的新应用中扩展。看看哪些应用问题在2020年影响最大也将很有趣。7.修复NLG中的解码错误1.发生了什么?尽管功能越来越强大,但自然语言生成(NLG)模型仍然经常产生重复或乱码,如下图所示。GPT-2使用集束搜索和纯(贪婪)采样来生成重复(蓝色)和乱码(红色)(Holtzman等人,2019年)。事实证明,这主要是最大似然训练的结果。我很高兴看到已经有一些旨在改进这一点的研究工作,与此同时,在建模方面也取得了一些进展。这种改进是通过采用新的采样方法(例如内核采样)(Holtzman等人,2019)或使用新的损失函数(Welleck等人,2019)获得的。另一个令人惊讶的发现是更好的搜索不会导致更好的生成:当前模型在某种程度上依赖于不完美的搜索和集束搜索错误。在机器翻译的情况下,精确搜索通常会返回空翻译(Stahlberg&Byrne,2019)。这表明搜索和建模的进步必须齐头并进。2.为什么重要?自然语言生成是NLP中最普遍的任务之一。在NLP和ML研究中,大多数论文都专注于改进模型,而管道的其他部分通常被忽略。对于NLG,重要的是要注意我们的模型仍然存在缺陷,可以通过修复搜索或训练过程来改进输出。3.下一步是什么?尽管更强大的模型和迁移学习在NLG中的成功应用(Song等人,2019年;Wolf等人,2019年),模型预测仍然存在许多缺陷,识别和理解这些缺陷的原因将很重要未来的研究方向。8.增强型预训练模型1.发生了什么?在过去的一年里,我很高兴看到研究人员想出了为预训练模型添加新功能的方法。一些方法使用知识库增强预训练模型,以改进实体名称建模(Liu等人,2019年)和事实回忆(Logan等人,2019年)。其他研究使预训练模型能够通过访问许多预定义的可执行程序来执行简单的算术推理(Andor等人,2019年)。由于大多数模型具有较弱的归纳偏差,并且可以从数据中学习大部分知识,因此增强预训练模型的另一种方法是增强训练数据本身,例如捕获常识(Bosselutetal.,2019),如图所示下面显示。具有多头注意力的标准变压器。经过训练的模型可以预测给定主题和关系的知识库三元组的对象(Bosselut等人,2019)。2.为什么重要?模型越来越强大,但模型无法从文本中学到太多东西。特别是在处理更复杂的任务时,可用数据可能非常有限,以至于无法使用事实或常识来学习显式推论,并且通常可能需要更强的归纳偏差。3.下一步是什么?随着模型应用于更具挑战性的问题,对组合的修改将变得越来越必要。将来,我们可能会将强大的预训练模型与可学习的组合程序结合起来(Pierrot等人,2019年)。九、高效远程Transformer1、发生了什么事?Transformer架构在过去一年中取得了一些改进(Vaswani等人,2017年)。例如,Transformer-XL(Daietal.,2019)和CompressiveTransformer(Raeetal.,2020)使该架构能够更好地捕获长程依赖性。CompressiveTransformers将过去的激活(细粒度记忆)压缩到更粗略的压缩记忆中(Rae等人,2020)。同时,许多方法试图通过使用不同的(通常是稀疏的)注意力机制来提高Transformer的效率,例如利用自适应稀疏注意力(Correiaetal.,2019)、自适应注意力跨度(Sukhbaataretal.,2019)、产品关键注意力(Lample等人,2019)和局部敏感散列(Kitaev等人,2020)以提高Transformer效率。在基于Transformer的预训练方面,出现了更高效的变体,例如使用参数共享的ALBERT(Lanetal.,2020)和使用更高效预训练任务的ELECTRA(Clarketal.,2020)。然而,也有一些预训练模型在不使用Transformers的情况下更有效,例如一元文件模型VAMPIRE(Gururangan等人,2019年)和基于QRNN的MultiFiT(Eisenschlos等人,2019年)。该领域的另一个趋势是将大型BERT模型提炼成更小的模型(Tang等人,2019年;Tsai等人,2019年;Sanh等人,2019年)。2.为什么重要?Transformer架构自提出以来就极具影响力。它是NLP中大多数最先进模型的组成部分,并已成功应用于许多其他领域(参见第1节和第6节)。因此,对Transformer架构的任何改进都可能产生强烈的“涟漪效应”。3.下一步是什么?从业者可能需要一段时间才能从Transformer所做的改进中获益,但鉴于预训练模型的普遍性和易用性,时间不会太长。总体而言,强调效率的模型架构有望继续成为关注的焦点,稀疏性是关键趋势之一。十。更可靠的分析方法1.发生了什么事?过去一年ML和NLP研究的主要趋势之一是分析模型的论文数量有所增加。事实上,去年我最喜欢的一些论文都是关于这些类型的分析模型的论文。2019年初,Belinkov和Glass对分析方法进行了出色的调查。记忆中的第一次,过去一年看到了很多专门分析单一模型BERT的论文(这类论文被称为BERTology)。在这种情况下,旨在通过预测某些属性来了解模型是否捕获形态、句法等的探针已成为一种常用工具(见下图)。用于研究表示中的语言知识的探针设置(Liu等人,2019)。我特别欣赏使探针更可靠的论文(Liuetal.,2019;Hewitt&Liang,2019)。可靠性也是注意力能否对对话领域的发展路径提供有意义的解释的研究课题(Jain&Wallace,2019;Wiegreffe&Pinter,2019;Wallace,2019)。最近在ACL2020上发表的关于NLP模型的可解释性和模型分析的跟踪论文是对分析方法持续感兴趣的一个主要例子。2.为什么重要?在实践中,当前最先进的分析方法通常是一个黑匣子。为了开发更好的模型并将其应用到现实世界中,我们需要了解模型为什么会做出某些决定。然而,我们目前解释模型预测的方法仍然有限。3.下一步是什么?需要做更多的工作来解释可视化范围之外的预测,因为这些预测通常是不可靠的。这个方向的一个重要趋势是更多的数据集正在提供人类解释(Camburu等人,2018年;Rajani等人,2019年;Nie等人,2019年)。文中提到的所有相关论文和工作均可在原文地址https://ruder.io/research-highlights-2019/获取。