当前位置: 首页 > 科技观察

从NLP的年度进展来看,2021年有哪些研究热点?

时间:2023-03-15 20:08:10 科技观察

2021年将在ML和NLP领域带来许多激动人心的发展。在SebastianRuder的最新博客《ML and NLP Research Highlights of 2021》中,他描述了他认为最鼓舞人心的论文和研究领域。文章涵盖了15个研究热点,具体如下:通用预训练模型大规模多任务学习Transformer架构备选方案提示高效方法基准条件图像生成机器学习程序结合自然科学综合偏差检索增强令牌免模型的重要性时间序列自适应数据元学习通用预训练模型2021研究人员开发了更大的预训练模型。预训练模型可应用于不同领域,对ML研究至关重要。在计算机视觉方面,VisionTransformer等有监督的预训练模型不断扩展,而自监督的预训练模型在性能上不断提升。对于语音,构建了基于wav2vec2.0的模型(如W2v-BERT),以及更强大的多语言模型(如XLS-R)。同时,新的统一预训练模型可用于不同模态(如视频和语言等)。在视觉和语言方面,对照研究揭示了这种多模式模型的重要组成部分。此外,预训练模型在强化学习、蛋白质结构预测等其他领域也取得了长足的进步。为什么预训练模型如此重要?预训练模型已被证明可以很好地泛化到给定的领域或不同的模式。他们表现出强烈的小样本学习行为和良好的学习能力。因此,预训练模型是进行科学研究和实际应用的重要组成部分。下一步是什么?毫无疑问,我们将来会看到更多甚至更大的预训练模型。同时,我们应该期望单个模型同时执行多个任务。在语言任务中,模型以通用的文本到文本格式构建,以执行不同的任务。同样,我们可能会看到在单个模型中执行图像和语音任务的模型。最后,我们将看到更多针对多模态训练的模型。大规模多任务学习上一节中的大多数预训练模型都是自我监督的,从大量未标记的数据中学习。然而,对于许多领域,大量标记数据已经可用,可用于学习更好的表示。到目前为止,T0、FLAN、ExT5等多任务模型已经在大约100个任务上进行了预训练,可以用于语言任务。如此大规模的多任务学习与元学习密切相关。通过访问不同的任务分配,模型可以学习不同类型的行为,例如如何在上下文中学习。为什么多任务模型很重要?许多模型如T5、GPT-3等都可以使用text-to-text格式,因此大规模多任务学习成为可能。因此,该模型不再需要手工制作的、特定于任务的损失函数或特定于任务的层来有效地跨多个任务学习。这些方法突出了将自我监督预训练与监督多任务学习相结合的好处,并证明了将这两种结果结合到更通用的模型中。下一步是什么?鉴于数据集的可用性和开源性(统一格式),我们可以想象一个良性循环,新创建的高质量数据集用于不同的任务以训练更强大的模型,然后可以循环使用创建更多具有挑战性的数据集。TransformerArchitectureAlternatives前面几节中讨论的大多数预训练模型都基于Transformer架构。替代模型架构将在2021年出现,它们是Transformer的可行替代方案。Perceiver是一种类似transformer的架构,它通过使用固定维度的潜在数组作为其基本表示并通过交叉注意力对输入进行调节来扩展到非常高维的输入。PerceiverIO可以通过扩展架构来处理结构化输出空间。还有一些模型试图取代自注意力层,最著名的是使用多层感知器(MLP),例如MLP-Mixer和gMLP。FNet使用1DFourierTransforms而不是self-attention在token级别混合信息。一般来说,将架构与预训练策略分离是很有用的。如果CNN以与Transformer模型相同的方式进行预训练,它们将在许多NLP任务上取得有竞争力的表现。此外,使用替代的预训练目标(例如ELECTRA式预训练)可能会产生更多收益。为什么替代变压器架构很重要?如果大多数研究都集中在单一架构上,这将不可避免地导致偏见、盲点和大量错误。新模型可能会解决一些Transformer的局限性,例如注意力的计算复杂性、黑盒性质等。下一步是什么?虽然预训练的变压器将继续部署为许多任务的标准基线,但我们应该期待看到提出替代架构。提示由于GPT-3的流行,提示已成为NLP模型的一种可行的替代输入格式。提示包括模式(即要求模型做出特定预测)和将预测转换为类标签的语言表达器。PET、iPET和AdaPET等几种方法利用线索进行少样本学习,但是,线索不是万灵药。模型的性能因提示而异,找到最佳提示仍然需要带标签的示例。为了在少量设置下比较模型的可靠性,我们需要不断开发新的评估程序。为什么提示很重要?提示可用于对特定于任务的信息进行编码,这些信息最多可包含3,500个标记示例,具体取决于任务。因此,提示是一种将专家信息纳入模型训练的新方法,而不是手动标记示例或定义标记函数。下一步是什么?目前,我们只涉及使用提示来改进模型学习。在未来的研究中,提示将变得更加复杂,例如包括更长的指令、正面和负面的例子、一般启发式。提示也可能是将自然语言解释纳入模??型训练的一种更自然的方式。高效的方法预训练模型的一个缺点是它们在实践中通常非常大且效率低下。2021年,研究人员带来了更高效的架构和更高效的微调方法。在建模方面,我们可以看到几个更有效的self-attention版本。目前的预训练模型非常强大,只需更新少量参数即可有效调优模型,这推动了基于连续提示和适配器的更有效微调方法的发展。高效的方法还可以通过学习适当的前缀或适当的转换来适应新的模式。为什么有效的方法很重要?如果模型不可行或太昂贵而无法在标准硬件上运行,那么模型就毫无意义。效率的提高将确保模型在变大的同时对从业者有用且易于使用。下一步是什么?高效的模型和训练方法应该变得更容易使用和更容易获得。同时,社区应该开发更有效的方法来与大型模型交互,并有效地适应、组合或修改它们,而无需从头开始预训练新模型。基准测试最近ML和NLP模型的快速改进已经超越了许多基准测试的能力。同时,社区评价的基准越来越少,而且这些基准只来自少数精英机构。因此,2021年出现了很多可以可靠地评估此类模型的方法的实践和讨论,我在这篇博文中对此进行了描述。2021年NLP社区中出现的重要排行榜格式包括动态对抗性评估、社区驱动评估(社区成员协作创建评估数据集,例如BIG-bench)、跨多种错误类型的交互式细粒度评估,超越多维评估单一性能指标评估模型。此外,还针对领域中有影响力的设置提出了新的基准,例如少样本评估和跨领域泛化。还出现了几个用于评估通用预训练模型的新基准,包括语音的特定模态基准、特定语言和跨模态基准。另一方面,评价指标也是关注的焦点。机器翻译(MT)元评估表明,在过去十年的769篇机器翻译论文中,有74.3%仍然只使用BLEU,尽管已经提出了108种与人类相关性更好的替代指标。因此,一些研究(如GEM和2D排行榜)提出了联合评估模型和方法。基准测试和评估是机器学习和NLP进步的关键。没有准确可靠的基准,就无法判断我们是在取得真正的进步还是过度适应根深蒂固的数据集和指标。提高对基准的认识将导致对新数据集的设计更加周到。新模型的评估也应该减少对单一性能指标的关注,而应考虑多个维度,例如模型的公平性、效率和鲁棒性。条件图像生成条件图像生成,即基于文本描述的图像生成,是一个在2021年取得了令人瞩目的成果的领域。围绕最新一代生成模型出现了一系列进展。最先进的方法不是直接基于DALL-E模型中的文本输入生成图像,而是使用联合图像-文本嵌入模型(例如CLIP)来指导生成模型(例如VQ-GAN)的输出.基于似然的扩散模型逐渐从信号中去除噪声,并已成为性能优于GAN的强大新型生成模型。最近的模型已经能够通过基于文本输入引导输出来生成逼真的图像。此类模型还特别擅长根据描述修复、修改图像区域。自动生成用户引导的高质量图像具有广泛的艺术和商业应用,包括视觉产品的自动设计、模型辅助设计、个性化等。基于扩散的模型比基于GAN的模型采样速度慢得多,因此这些模型需要提高效率才能实用。此外,该领域还需要对人机交互进行更多研究,以确定如何最好地应用此类模型来帮助人类。机器学习与自然科学相结合2021年,机器学习在推进自然科学方面取得了多项突破。在气象学中,机器学习和降水预报的结合大大提高了预报的准确性,使模型能够超越最先进的物理预报模型。在生物学中,AlphaFold2.0可以在不知道相似结构的情况下以前所未有的准确性预测蛋白质的结构。在数学中,ML已被证明可以引导数学家的直觉来发现新的联系和算法。在用足够的数据训练后,Transformer模型也被证明可以学习微分系统的数学特性,例如局部稳定性。使用ML来促进我们对自然科学的理解和应用是其最有影响力的应用之一,例如药物设计。在环中使用模型来帮助研究人员进行科学研究的方向非常引人注目,这既需要开发强大的模型,也需要研究交互式机器学习和人机交互。过程合成今年大型语言模型最引人注目的应用之一是代码生成,Codex首次集成到GitHubCopilot中。预训练模型的其他进步包括更好的预训练目标、扩展实验等。然而,生成复杂的程序仍然是当前模型的挑战。一个有趣的相关方向是学习执行或建模通过执行多步计算改进的程序,其中中间计算步骤记录在“暂存器”中。能够自动合成复杂的程序在理论上对支持软件工程师的工作非常有用,但代码生成模型在多大程度上改善了软件工程师在实践中的工作流程仍然是一个悬而未决的问题。为了真正有用,这些模型需要能够根据新信息更新它们的预测,并且它们需要考虑本地和全球环境。偏见鉴于大型预训练模型的潜在影响,此类模型不包含有害偏见、不被滥用以生成有害内容并以可持续的方式使用至关重要。许多行业讨论都强调了此类模型的潜在风险,一些研究调查了性别、种族和政治派别等受保护属性的偏见。然而,从模型中消除偏差需要权衡取舍。在实际应用中使用的模型不应表现出任何有害的偏见,也不应歧视任何群体。因此,更好地了解当前的模型偏差并消除它们对于实现ML模型的安全和负责任的部署至关重要。到目前为止,偏差主要出现在预训练模型、特定文本生成程序和分类应用程序中。鉴于此类模型的预期用途和生命周期,我们还应着眼于识别和减轻多语言环境中的偏差,并尽可能消除预训练模型使用的所有阶段(包括预训练后、微调后和测试时))偏见。RetrievalAugmentationRetrievalAugmentedLanguageModels将检索集成到预训练和下游使用中,我在2020年研究热点总结中提到过。2021年,搜索语料已经扩展到万亿token之多,模型具备查询网页回答问题的能力。此外,我们还可以看到许多将检索集成到预训练语言模型中的新方法。为什么搜索增强如此重要?由于模型需要在参数中存储更多的知识并且可以检索它们,因此检索增强的应用使模型的参数效率更高。检索增强还可以通过更新检索到的数据来实现有效的领域适应。未来,我们可能会看到不同形式的检索来利用不同种类的信息,例如常识、事实关系、语言信息等。检索增强还可以与更结构化的知识检索形式相结合,例如从知识库组和开放信息抽取。Token-free模型2021年出现了新的token-free方法,直接使用序列字符。这些无标记模型已被证明优于多语言模型,并且在非标准语言上表现非常好。因此,它们是该领域常用的基于词的转换器模型的潜在替代品。为什么无代币模型如此重要?自从BERT等预训练语言模型问世以来,由标记化单词组成的文本已成为NLP中的标准输入格式。然而,单词标记化已被证明在嘈杂输入上表现不佳,例如社交媒体中常见的拼写错误或拼写差异,或某些类型的词汇模式。此外,在使模型适应新数据时,强制依赖标记化会表现出不匹配。受益于更大的灵活性,无标记模型可以更好地模拟词汇模式,并在面对新词和语言变化时很好地泛化。然而,与基于令牌的方法相比,无令牌模型在不同类型的令牌形成上的表现如何,以及它们做出了哪些权衡,目前尚不清楚。时间自适应模型可以通过多种方式表现出偏差,具体取决于训练它们的数据。在2021年,越来越受到关注的一种偏差是对模型训练数据时间范围的偏差。鉴于语言不断发展,新术语不断出现,在过时数据上训练的模型已被证明泛化能力很差。然而,时序自适应是否有用可能取决于下游任务。例如,对于事件驱动的语言使用变化与任务性能无关的任务,时间适应可能没有多大帮助。在一些问答任务中,问题的答案会根据提问时间的不同而有所不同。时间适应对于此类问答任务极为重要。开发能够适应新时间框架的方法需要摆脱静态的预训练-微调范式,并需要更有效的方法来更新预训练模型知识。在这方面,有效的方法和检索增强都是有用的。此外,我们需要开发新的模型,使输入不存在于真空中,而是基于非语言语境和现实世界。数据的重要性数据长期以来一直是ML的重要组成部分,但往往被建模的进步所掩盖。然而,鉴于数据在模型缩放中的重要性,研究界也慢慢从以模型为中心的方法转变为以数据为中心的方法。重要主题包括如何有效地构建和维护新数据集,以及如何确保数据质量。此外,预训练模型使用的大规模数据集在2021年受到审查,包括多模态数据集、英语和多语言文本语料库。数据在训练大规模机器学习模型时至关重要,是模型获取新信息的关键因素。随着模型规模越来越大,确保大规模数据的质量变得越来越具有挑战性。目前,我们缺乏关于如何有效地为不同任务构建数据集以及如何可靠地确保数据质量的最佳实践和原则方法。此外,数据如何与模型学习相互作用以及数据如何使模型产生偏差仍然知之甚少。元学习虽然元学习和迁移学习有共同的目标,但它们主要在不同的社区进行研究。在新的基准测试中,大规模迁移学习方法优于元学习方法。一个有前途的发展方向是扩展元学习方法,以纳入更高效的记忆训练方法,以提高元学习模型在现实世界基准测试中的性能。元学习方法还可以与高效的适应方法(例如FiLM层)相结合,使通用模型更有效地适应新的数据集。元学习是一个重要的范例,但未能在未设计元学习系统的标准基准测试中取得SOTA结果。将元学习和迁移学习社区更紧密地结合在一起可能会产生在实际应用中更有用的元学习方法。当结合大量自然任务进行大规模多任务学习时,元学习特别有用。元学习还可以通过从大量可用提示中学习如何设计或使用提示来改进提示。