当前位置: 首页 > 科技观察

NLPer恢复工作了!看看这份2019年机器学习和NLP年度盘点

时间:2023-03-13 05:48:05 科技观察

2019年是机器学习和自然语言处理领域快速发展的一年。DeepMind科学家SebastianRuder从10个方面总结了过去一年我们取得的重要进展,这对未来的研究方向具有重要的指导意义。本文呈现了2019年在机器学习和自然语言处理领域具有高影响力的10个有趣的研究方向。对于每个方向,本文将首先总结我们今年在该方向取得的主要进展,简要说明为什么我认为该方向很重要,最后对未来的工作做一个简单的展望。这10个方向是:UniversalunsupervisedpretrainingLotteryticketsTheNeuralTangentKernelUnsupervisedmultilinguallearningMorerobustcomparisonbenchmarks(Morerobustbenchmarks)机器学习和自然语言处理对科学发展的贡献(ML和NLPforscience)解决自然语言中的解码错误generationproblems(FixingdecodingerrorsinNLG)Augmentingpretrainedmodels(增强预训练模型)EfficientandTransformer(Efficientandlong-rangeTransformers)withawidememoryrangeMorereliableanalysismethods(更可靠的分析方法)Generalunsupervisedpre-training由于BERT(Devlinetal.,2019)及其变体的出现,无监督预训练在今年自然语言处理(NLP)领域大放异彩。BERT的众多变体已经应用于多模态场景,主要涉及文本及其关联的图像和视频(如下图所示)。无监督训练也开始渗透到曾经由监督学习主导的领域。在生物信息学领域,Transformer语言模型的预训练也开始应用于蛋白质序列预测(Rivesetal.,2019)。在计算机视觉方面,模型包括CPC(Hénaffetal.,2019)、MoCo(Heetal.,2019)和PIRL(Misra&vanderMaaten,2019),以及改进ImageNet数据采样的强大生成器模型BigBiGAN(Donahue&Simonyan,2019)提出的效率和图像生成效果都采用了自监督学习方法。在语音中,多层卷积神经网络(Schneider等人,2019年)和双向CPC(Kawakami等人,2019年)学习的表示优于最先进的模型,需要更多的训练数据。很少。为什么重要无监督预训练使我们在训练模型时可以大大减少对标记数据的需求。这开辟了振兴以前未满足数据需求的领域的可能性。接下来会发生什么?尽管研究人员已经开始研究无监督预训练,并在一??些独立领域取得了巨大成功。但如果未来能朝着多模态紧密结合的方向发展,应该会很有趣。最近提出的BERT多模式变体是VideoBERT(Sun等人,2019)。它可以根据recipe生成视频的“token”(上图),当给定某个视频“token”时,它可以预测不同时间尺度的“token”(下图)图片)。彩票假设如下图所示,FrankleandCarbin(2019)定义了“中奖彩票”(winningtickets)——即在一个密集的、随机初始化的前馈网络中找到一个初始化良好的子网络,独立训练这个子网络网络应该得到与训练整个网络相似的准确度。虽然最初的剪枝过程只适用于小型视觉任务,但后来的工作(Frankleetal.,2019)将剪枝应用于早期训练,而不是初始化阶段,这样更容易为更深的模型找到小型子网络。可能的。余等。(2019)还在NLP和RL的LSTM和Transoformer模型中发现了“中奖彩票”。尽管这样的中奖彩票仍然很难找到,但它们似乎可以在数据集和优化器之间转移(Morcos等人,2019年)。它为什么如此重要?随着神经网络变得更加先进,它们的规模和训练它们并使用它们进行预测所需的计算能力也在增长。能够始终如一地找到实现相似性能的较小子网络可以大大降低训练和推理的计算能力要求。这加快了模型迭代,并为设备上和边缘计算开辟了新的可能性。接下来会发生什么?目前,在低资源场景下,寻找“中奖彩票”仍然需要巨大的计算开销,才能产生实际收益。更鲁棒的one-shot剪枝方法对剪枝过程中的噪声不那么敏感,所以这个问题可以在一定程度上得到缓解。研究“中奖彩票”的特点,也可以帮助我们更好地理解初始化,理解神经网络训练的过程。测试不同剪枝率下的准确性——实线代表中奖彩票,虚线代表随机抽样的子网络(Frankle&Carbin,2019)。神经切线核估计大多数人很难想到当神经网络很宽(更准确地说是无限宽)时,实际上比窄时更好研究。研究结果表明,在无限宽度的限制下,神经网络可以近似为具有核的线性模型,该核为神经正切核(NeuralTangentKernel,NTK,Jacotetal.,2018)。事实上,这些模型的性能不如深度有限的模型(Novaketal.,2019;Allen-Zhuetal.,2019;Bietti&Mairal,2019),这也限制了研究成果的应用到标准方法。然而,最近的一些工作(Li等人,2019年;Arora等人,2019年)大大缩小了神经正切核与标准方法之间的性能差距(参见ChipHuyen在NeurIPS2019上其他相关论文的博文)。它为什么如此重要?NTK可能是我们用来分析神经网络理论行为的最强大工具。虽然它有其局限性(即实用的神经网络仍然优于相应的NTK版本模型),并且迄今为止该领域的研究成果还没有转化为实际效益,但它可能有助于我们开拓深度学习领域。黑盒子。接下来做什么?NTK和标准方法之间的差距似乎主要是宽度的差异,未来的工作可能会尝试描述这种差距。这也有助于我们将无限宽度约束的想法付诸实践。最终,NTK可能会帮助我们理解神经网络的训练过程和泛化行为。输出缩放因子α不同取值时用NTK的线性模型的学习过程,图中的椭圆是NTK的可视化结果。Unsupervisedmultilinguallearning多年来,跨语言表征主要集中在单层研究上。详见综述文章《ASurveyofCross-lingualWordEmbeddingModels》。得益于无监督预训练的发展,例如多语言BERT,2019年出现了XLM(Conneau&Lample,2019)和XLM-R(Conneauetal.,2019)。虽然这些模型没有明确使用任何跨语言信号,即使没有共享词表或联合训练(Artetxe等人,2019年;Karthikeyan等人,2019年;Wu等人,2019年),它们也出人意料地跨语言泛化。“UnsupervisedCross-lingualRepresentationLearning”概述了多语言模型。这种深度模型也为无监督机器翻译领域带来了许多改进(Songetal.,2019;Conneau&Lample,2019)。在统计和神经网络方法更明智的融合的推动下,该领域在2018年也取得了重要进展。另一个令人兴奋的进展是我们可以从现有的英语预训练表征构建深度多语言模型(见下图)。它为什么如此重要?现有的跨语言表示技术允许使用较少的语料库训练英语以外的语言模型。此外,如果有足够的英文标记数据,这些方法可以使零样本迁移成为可能。最终,它们还有可能帮助我们理解语言之间的关系。下一步怎么发展?目前尚不清楚为什么这些方法在没有任何跨语言监督信号的情况下取得如此好的性能。进一步了解这些方法的工作原理可能有助于我们设计更强大的算法,也可能揭示不同语言结构之间的关系。此外,我们不仅应该关注零样本迁移,还应该考虑从标签数据很少的目标语言中学习。Artetxe等人提出的单语迁移方法的四个步骤。(2019)。在更强大的基准SOTA中有些东西已经烂了-Nie等人。(2019)释义莎士比亚的名言“丹麦国有些东西腐烂了”。最近,创建了新的NLP数据集,如HellaSWAG(Zellers等人,2019年),以测试当前最先进的模型。数据集中的示例经过人工筛选,以明确确保剩余数据是当前性能最好的模型无法成功处理的数据(相关示例见下图)。这种人为参与的对抗性数据构建可以重复多次,例如最近的比较基准AdversarialNLI(Nieetal.,2019),这使得数据集的创建对于当前的自然语言推理模型更具挑战性。它为什么如此重要?很多研究者发现,现在的NLP模型并没有学到他们应该学的东西,只是用一些非常简单的启发式方法去发现数据中一些非常浅显的线索。详情参见《NLP的聪明汉斯时刻已经到来》。随着数据集变得越来越强大,我们希望新提出的模型可以被迫学习数据中真正深层的关系。下一步怎么发展?随着模型变得越来越强大,大多数数据集都需要不断改进或迅速过时。我们需要专用的底层系统和工具来促进这一过程。此外,应运行合适的比较基线,包括使用不同数据变体(例如输入不完整)的简单方法和模型,以便数据集的初始版本尽可能稳健。上图是HellaSWAG中的一个句子填空选择题,目前表现最好的模型很难回答。最难的例子是复杂度需要“恰到好处”,答案会包含三个背景句和两个生成句(Zellersetal.,2019)。科学中的机器学习和自然语言处理在将机器学习应用于基础科学问题方面已经取得了一些重要进展。本文主要关注深度神经网络在蛋白质折叠预测和多电子薛定谔方程中的应用(Pfauetal.,2019)。从NLP的角度来看,好消息是即使是标准模型在结合领域指标时也能获得巨大的改进。在材料科学领域,研究人员完成了一项使用词嵌入来分析潜在知识的工作(Tshitoyan等人,2019),以预测某种材料是否会具有某些特性(见下图)。在生物领域,基因、蛋白质等数据是时序性的,因此NLP方法(LSTM、Transformer等)天生适合解决这类问题。这些方法已应用于蛋白质分类任务(Strodthoff等人,2019年;Rives等人,2019年)。它为什么如此重要?科学可以说是机器学习最具影响力的应用领域之一。解决方案可以对许多其他领域产生巨大影响,可以帮助解决实际问题。接下来做什么?从物理问题中的能量建模(Greydanus等人,2019年)到求解微分方程(Lample&Charton,2020年),机器学习技术不断应用于新的科学问题。看看2020年最有影响力的工作是什么将会很有趣!词嵌入是根据不同时期的文献摘要进行训练,以预测这些材料在未来的用途(铁电体、太阳能光伏、拓扑绝缘体)。该图显示了与所有候选材料相比预测的50种最有可能研究的材料(Tshitoyan等人,2019年)。解决自然语言生成(NLG)中的解码错误尽管自然语言生成(NLG)领域的模型越来越强大,但它们仍然经常生成重复或无意义的单词(如下图所示)。这主要是最大似然训练造成的。值得庆幸的是,这正在得到改进,其进展与建模工作正交。这些改进大多以新的采样方法(例如,核采样,Holtzman等人,2019年)或新的损失函数(Welleck等人,2019年)的形式出现。另一个令人惊讶的发现是,好的搜索结果并不能帮助模型获得更好的生成结果:当前的模型在某种程度上依赖于不精确的搜索和波束搜索错误。相比之下,在机器翻译的背景下,精确搜索通常会返回无意义的翻译(Stahlberg&Byrne,2019)。这一发现表明,搜索和建模的进步必须齐头并进。它为什么如此重要?NLG是NLP中最基本的任务之一。在自然语言处理和机器学习研究中,大部分论文都侧重于模型的改进,而其他部分的开发往往被忽视。对于NLG研究人员来说,重要的是要提醒自己我们的模型仍然存在缺陷,也许可以通过修复搜索或训练过程来改进输出。接下来做什么?尽管NLG模型越来越强大,并且借助迁移学习,模型的预测结果仍然包含很大程度的认知因素。找出并理解这些人为因素的成因是一个非常重要的研究方向。GPT-2使用束搜索和纯(贪心)采样方法的结果,蓝色部分是重复的,红色部分是无意义的词。增强预训练模型在2019年,我们很高兴为我们的预训练模型方法添加新功能。一些方法使用知识库增强预训练模型,以提高模型在实体识别(Liu等人,2019年)任务和事实回忆(Logan等人,2019年)方面的性能。还有一些方法通过访问一些预定义的可执行程序来执行简单的算法推理(Andoretal.,2019)。由于大多数模型具有弱归纳偏差,并且大多数知识都是从数据中学习的,因此增强预训练模型的另一种选择是增强训练数据本身(例如获得常识,Bosselut等人,2019年),如下所示。它为什么如此重要?模型变得越来越强大,但是有很多知识是模型无法单独从文本中学习的。特别是在处理更复杂的任务时,可用数据可能太有限而无法使用事实或常识进行显式推理,并且可能需要更强的归纳偏差。接下来做什么?随着这些模型应用于更具挑战性的问题,组合修改模型变得越来越必要。将来,我们可能会将强大的预训练模型与可学习的合成程序结合起来(Pierrot等人,2019年)。具有多头注意力机制的标准Transformer。给定头部实体和关系,经过训练的模型可以预测知识库三元组中的尾部实体(Bosselut等人,2019)。高效和内存范围的TransformerTransformer架构在今年有了一些改进(Vaswani等人,2017年)。这些新架构(例如Transformer-XL,Dai等人,2019年和CompressiveTransformer,Rae等人,2020年)使得捕获长距离依赖性成为可能。还有一些方法希望通过使用不同的(通常是稀疏的)注意力机制来实现这一点(例如自适应稀疏注意力,Correia等人,2019年;自适应注意力跨度,Sukhbaatar等人,2019年;产品关键注意力,Lampleetal.,2019;locality-sensitivehashing,Kitaevetal.,2020等)以提高Transformer的效率。在基于Transformer的预训练领域,也出现了很多更高效的变体,例如使用参数共享的ALBERT(Lanetal.,2020)和使用更高效预训练的ELECTRA(Clarketal.,2020)训练任务)等等。当然,也有一些预训练模型不使用Transformer,效率也更高,比如单元素文档模型VAMPIRE(Gururanganetal.,2019)和基于QRNN的MultiFiT(Eisenschlosetal.,2019)。另一个值得注意的趋势:大型BERT的蒸馏以获得更小的模型(Tang等人,2019年;Tsai等人,2019年;Sanh等人,2019年)。它为什么如此重要?Transformer架构从一开始就具有影响力。它是最先进的NLP模型,并已成功应用于许多其他领域(参见第1节和第6节)。因此,对Transformer架构的任何改进都可能产生强烈的连锁反应。接下来做什么?这些改进在实践中实施还需要一些时间,但鉴于预训练模型的流行和易用性,这种更高效的替代方案可能很快就会被采用。总的来说,我们希望研究人员能够继续关注强调效率的模型架构,而稀疏性是主要趋势之一。CompressiveTransformer(Raeetal.,2020)可以将过去激活函数的细粒度记忆压缩为粗粒度的压缩记忆。更可靠的分析方法2019年的一个关键趋势是关于分析模型的论文越来越多。事实上,作者最喜欢的几篇论文都是这样的分析论文。早期的亮点是Belinkov&Glass的2019年分析方法回顾。此外,在我的记忆中,第一次出现了研究像BERT这样的模型的论文(这些论文被称为BERTology)。在这样的背景下,探针成为了一种常用的工具,其目的是通过预测某些属性来了解模型是否“理解”了词汇、句法等。作者特别喜欢探索如何使探针技术更可靠的论文(Liuetal.,2019;Hewitt&Liang,2019)。可靠性也是一个一直在争论注意力是否可以提供有意义的解释的话题(Jain&Wallace,2019;Wiegreffe&Pinter,2019;Wallace,2019)。研究人员对分析方法日益浓厚的兴趣或许最好地体现在ACL2020的新赛道“NLP模型的分析和可解释性”中。它为什么如此重要?当前最先进的方法通常用作黑盒。为了开发更好的模型并在现实世界中使用它们,我们需要了解模型做出这些决定的原因。然而,我们目前解释模型预测的方法仍然有限。接下来做什么?我们需要做更多的工作来解释超出我们预期的预测,而且它们通常是不可靠的。这个方向的一个重要趋势是更多的数据集提供了人工编写的解释(Camburu等人,2018年;Rajani等人,2019年;Nie等人,2019年)。在表征中学习语言知识的探索设置。以上是笔者对2019年NLP领域的盘点,可以看出NLP依然是一个蓬勃发展的领域,很多理论都在快速发展,未来的研究成果可期。

猜你喜欢