当前位置: 首页 > 科技观察

千字长文!DeepMind科学家总结2021年15项高能研究

时间:2023-03-16 19:04:20 科技观察

2021年,借助更强大的计算能力、数据和模型,机器学习和自然语言处理的技术发展依然非常迅猛。近日,DeepMind科学家SebastianRuder总结了过去一年中15个高能量和启发性的研究领域,主要包括:UniversalModelsGeneralModelMassiveMulti-taskLearningLargescalemulti-tasklearningBeyondtheTransformerThemethodbeyondTransformerPromptingTipsEfficientMethods高效方法基准测试条件图像生成条件图像生成科学机器学习科学程序综合偏差偏差检索增强检索增强无令牌模型无令牌模型时间适应时间适应数据的重要性元学习的重要性塞巴斯蒂安鲁德是伦敦DeepMind的研究科学家。在Insight数据分析研究中心获得自然语言处理和深度学习博士学位,同时在柏林的文本分析初创公司AYLIEN担任研究科学家。1通用模型通用人工智能一直是AI从业者的目标。能力越通用,模型越强大。2021年,预训练模型将变得更大、更通用,微调后可以适应各种应用场景。这种预训练-微调已经成为机器学习研究的新范式。在计算机视觉领域,虽然VisionTransformer等有监督的预训练模型规模在逐步扩大,但只要数据量足够大,预训练模型在自监督情况下的效果可以已经和监督竞争了。在语音领域,一些基于wav2vec2.0的模型,比如W2v-BERT,以及更强大的多语言模型XLS-R也表现出了惊人的效果。同时,研究人员还发现了新的统一预训练模型,可以改进以前未研究的模态对,例如视频和语音、语音和语言。在视觉和语言方面,对照研究也通过在语言建模范式中设置不同的任务揭示了多模态模型的重要组成部分。此类模型在其他领域也被证明是有效的,例如强化学习和蛋白质结构预测。鉴于在大量模型中观察到的缩放行为,报告不同参数大小尺度下的性能已成为一种常见的做法。然而,预训练模型的模型性能提升并不一定能完全转化为下游任务的性能提升。总之,预训练模型已被证明可以很好地泛化到特定领域或模式中的新任务。他们表现出强大的少样本学习和强大的学习能力。因此,这项研究的进展非常有价值,可以实现新的现实世界应用。对于下一步的发展,研究人员认为未来会开发出更多甚至更大的预训练模型。同时,我们应该期望单个模型同时执行更多任务。就语言而言,模型可以通过以通用的文本到文本格式构建它们来执行许多任务。同样,我们可能会看到图像和语音模型在一个模型中执行许多常见任务。2Large-ScaleMulti-TaskLearning大多数预训练模型都是自监督的。他们通常从大量未标记的数据中学习,其目标不需要明确的监督。然而,许多领域已经有大量标记数据,可用于学习更好的表示。到目前为止,T0、FLAN和ExT5等多任务模型已经在大约100个主要针对特定??语言的任务上进行了预训练。这种大规模的多任务学习与元学习密切相关。如果接触到不同的任务分配,该模型可以学习不同类型的行为,例如如何进行情境学习。ExT5能够进行大规模的多任务学习。在预训练期间,ExT5针对不同任务的一组输入进行文本到文本训练,以生成相应的输出。这些任务包括掩码语言建模、摘要、语义分析、闭卷问答、风格迁移、对话建模、自然语言推理、Winograd-schema-style核心参考解析等。最近研究的一些模型,如T5和GPT-3,使用了文本到文本的格式,这也成为了大规模多任务学习的训练基础。因此,该模型不再需要手动设计任务特定的损失函数或任务特定的层,从而实现高效的跨任务学习。这种最先进的方法突出了将自我监督预训练与监督多任务学习相结合的好处,并证明了将两者结合会产生更通用的模型。3不局限于Transformer上面提到的大部分预训练模型都是基于Transformer的模型架构。2021年,研究人员也一直在寻找Transformer的替代模型。Perceiver的模型架构与Transformer类似,使用固定维度的latentarray作为基本表示,通过cross-attention调整输入,从而将输入扩展到高维。PerceiverIO进一步扩展模型的架构以处理结构化输出空间。也有一些模型试图改进Transformer中的self-attention层。一个更成功的例子是使用多层感知器(MLP),例如MLP-Mixer和gMLP模型。此外,FNet使用一维傅里叶变换而不是自注意力来混合token级别的信息。一般来说,将模型架构与预训练策略分离是有价值的。如果CNN以与Transformer模型相同的方式进行预训练,它们可以在许多NLP任务上获得更具竞争力的性能。同样,使用其他预训练目标函数,例如ELECTRA式预训练也可能带来性能优势。4Prompting受GPT-3的启发,prompting是一种可行的NLP模型新范式。提示通常包括一个要求模型做出某种预测的模式,以及一个将预测转换为类标签的语句过程。当前的方法包括PET、iPET和AdaPET,它们使用提示进行小样本学习。然而,提示并不是万能的,模型的性能会因不同的提示而有很大差异。而且,为了找到最好的提示,仍然需要标记数据。为了可靠地比较模型在少样本设置中的性能,一些研究人员开发了新的评估程序。通过使用公共提示池(P3)中的大量提示,可以探索使用提示的最佳方式,同时也为一般研究领域提供了一个极好的概述。到目前为止,研究人员只触及了使用提示改进模型学习的皮毛。以后的提示将变得更加细化,例如包括更长的指令、正面和负面的例子以及一般的启发式方法。提示也可能是将自然语言解释纳入模??型训练的一种更自然的方式。5EfficientMethods预训练模型通常非常大,在实践中往往效率低下。2021年,出现了一些更高效的架构和更高效的微调方法。在模型方面,也有几个更新、更高效的self-attention版本。目前的预训练模型非常强大,只需更新少量参数即可进行高效调优,因此基于连续提示和适配器等更有效的微调方法得到快速发展。这种能力还能够通过学习适当的前缀或适当的转换来适应新的模式。此外,还有一些其他途径可以提高效率,例如创建更高效??的优化器和稀疏性量化方法。当模型无法在标准硬件上运行,或者过于昂贵时,模型的可用性就会大大降低。为了确保模型部署在模型不断扩展的同时也能使用这些方法并从中受益,模型的效率需要不断提高。在下一步的研究中,人们应该能够更容易地获得和使用有效的模型和训练方法。与此同时,社区将开发更有效的方法来与大型模型交互,并有效地调整、组合或修改它们,而无需从头开始预训练新模型。6基准测试最近机器学习和自然语言处理模型能力的快速改进已经超过了许多基准测试的能力。同时,社区的评价基准越来越少,而这些基准来自少数精英机构。每个机构的数据集使用情况表明,超过50%的数据集可以归因于12个机构。由基尼指数衡量的数据集使用的集中度在机构和特定数据库中有所增加。因此,在2021年,你可以看到很多关于最佳实践以及如何可靠地评估这些模型未来发展的讨论。2021年自然语言处理社区将出现的值得注意的排行榜范式包括:动态对抗性评估、社区驱动的评估,其中社区成员协作创建评估数据集,例如BIG-bench,跨不同的错误类型进行交互式细粒度评估,以及超越单一绩效指标评价模型的多维度评价。此外,新基准提出了有影响力的设置,例如少样本评估和跨域泛化。另请参阅新的基准测试,它侧重于评估针对特定模态的通用预训练模型,例如不同语言(印度尼西亚语和罗马尼亚语),以及多种模态和多语言环境,也应该更加关注评估指标。机器翻译元评估显示,在过去十年的769篇机器翻译论文中,尽管提出了108个替代手指,但仍有74.3%的论文仍然只使用BLEU,通常具有更好的人类相关性。因此,最近的GEM和二维排行榜等提案提出了模型和方法的联合评估。基准测试和评估是机器学习和自然语言处理科学进步的关键。没有准确可靠的基准,就不可能知道我们是在取得真正的进步还是过度适应根深蒂固的数据集和指标。为了提高对基准测试问题的理解,下一步应该是对新数据集进行更周到的设计。新模型的评估也应该减少对单一性能指标的关注,而应考虑多个维度,例如模型的公平性、效率和鲁棒性。7条件图像生成条件图像生成,即基于文本描述生成图像,在2021年取得了重大进展。最近的方法不是像DALL-E模型那样直接基于文本输入生成图像,而是利用联合图像和文本嵌入模型,如CLIP来指导像VQ-GAN这样强大的生成模型的输出。基于似然的扩散模型逐渐从信号中去除噪声,已成为性能优于GAN的强大的新型生成模型。通过基于文本输入引导输出,模型生成的图像也逐渐接近逼真的图像质量。这样的模型也特别适用于图像修复,也可以根据描述修改图像的区域。与基于GAN的模型相比,最近基于扩散的模型的采样速度要慢得多。这些模型需要高效才能对实际应用有用。该领域还需要更多关于人机交互的研究,以确定这些模型如何最好地帮助人类进行创作。8面向科学的机器学习2021年,机器学习技术将在推动自然科学发展方面取得一些突破。在气象学中,降水临近预报和预报的进步已导致预报准确性的显着提高。在这两种情况下,这些模型都优于最先进的基于物理的预测模型。在生物学中,AlphaFold2.0以前所未有的准确性预测蛋白质的结构,即使在不存在相似结构的情况下也是如此。在数学中,机器学习已被证明可以引导数学家的直觉来发现新的联系和算法。Transformer模型也被证明能够学习数学性质的微分系统,例如训练足够的数据以使其局部稳定。使用在环模型帮助研究人员发现和开发新进展是一个特别引人注目的方向。它既需要开发强大的模型,也需要研究交互式机器学习和人机交互。9ProgramSynthesis今年大规模语言模型最引人注目的应用之一是代码生成,Codex作为GitHubCopilot的一部分首次集成到主要产品中。然而,生成复杂和长格式的程序仍然是当前模型的挑战。一个有趣的相关方向是学习执行或建模程序,这可以通过执行多步计算来改进,其中中间计算步骤被记录在暂存器中。代码生成模型在多大程度上改善了软件工程师在实践中的工作流程仍然是一个悬而未决的问题。为了真正有用,这些模型——类似于对话模型——需要能够根据新信息更新它们的预测,并考虑代码的本地和全局上下文。10偏见鉴于预训练大型模型的潜在影响,这些模型不包含有害偏见、不被滥用以产生有害内容并可持续使用至关重要。一些研究人员调查了性别、特定种族群体和政治倾向等受保护属性的偏见,强调了此类模型的潜在风险。然而,简单地从毒性模型中消除偏见可能会导致与边缘化群体相关的文本覆盖面减少。到目前为止,偏见主要是在英语和预训练模型以及特定的文本生成或分类应用方面进行了探索。鉴于这些模型的预期用途和生命周期,我们还应该旨在识别和减轻多语言环境中不同模式组合的偏差,以及在使用预训练模型的不同阶段——预训练后、微调后和测试时-偏差。11检索增强检索增强语言模型使检索能够集成到预训练和下游任务中。2021年,检索语料扩展到万亿个token,模型已经可以查询网络来回答问题。研究人员还发现了将检索整合到预训练语言模型中的新方法。检索增强使模型能够更有效地使用参数,因为它们需要在参数中存储更少的知识并且可以检索。它还通过简单地更新用于检索的数据来实现高效的域适应。在未来,我们可能会看到不同形式的检索来利用不同类型的信息,如常识知识、事实关系、语言信息等。检索扩展也可以与更结构化的知识检索形式相结合,如知识库通用方法并开放信息抽取检索。12Token-freemodel自BERT等预训练语言模型出现以来,由tokenizedsubwords组成的文本成为了NLP的标准输入格式。然而,子词标记化已被证明在嘈杂的输入上表现不佳,例如社交媒体和某些类型的词汇中常见的错别字或拼写变体。2021年出现了直接使用字符序列的新无标记方法。这些模型已被证明优于多语言模型,并且在非标准语言上的表现尤其出色。因此,token-free可能是比subword-basedTransformer更有前途的替代模型。由于无标记模型具有更大的灵活性,它们能够更好地建模形态并更好地泛化到新词和语言变化。然而,与基于不同类型的形态或词形成过程的子词方法相比,它们的表现如何,以及这些模型做出了哪些权衡,目前尚不清楚。13时间自适应模型在很多方面都存在偏差,这取决于它们所训练的数据。2021年,这些偏差越来越受到关注,其中之一就是模型训练数据的时间范围偏差。鉴于语言不断发展并且新词进入话语,基于过时数据的模型已被证明泛化能力相对较差。然而,时间适应何时有用可能取决于下游任务。例如,如果与任务性能无关,事件驱动的语言使用变化可能对任务没有多大帮助。未来,开发能够适应新时间框架的方法需要摆脱静态预训练微调设置,需要有效的方法来更新预训练模型的知识,这两者与检索增强一起很有用在这方面。14数据的重要性长期以来,数据一直是机器学习的关键组成部分,但其作用常常被模型的进步所掩盖。然而,鉴于数据对于扩展模型的重要性,注意力正慢慢从以模型为中心转移到以数据为中心。关键主题包括如何有效地创建和维护新的数据集,以及如何确保数据质量。AndrewNG在NeurIPS2021举办了一个研讨会来研究这个问题——以数据为中心的人工智能。目前缺乏关于如何有效地为不同任务构建数据集、确保数据质量等方面的最佳实践和原则性方法。关于数据如何与模型的学习交互,以及数据如何影响偏差仍然知之甚少模型的。15Meta-learningMeta-learning和transferlearning,虽然两者的目标相同,都是Few-shotlearning,但是研究组不同。在新的基准测试中,大规模迁移学习方法优于基于元学习的方法。一个有前途的方向是扩大元学习方法,结合更高效的记忆训练方法,可以提高元学习模型在现实世界基准测试中的性能。元学习方法也可以与有效的自适应方法相结合,例如FiLM层[110],使通用模型更有效地适应新的数据集。