当前位置: 首页 > 科技观察

国内数十位NLP大咖合作总结预训练模型的过去、现在和未来

时间:2023-03-14 23:18:42 科技观察

BERT、GPT等大规模预训练模型(PTM)近年来取得了巨大的成功,成为人工智能领域的里程碑。由于复杂的预训练目标和庞大的模型参数,大规模PTM可以从大量标记和未标记数据中高效地获取知识。通过将知识存储到巨大的参数中并针对特定任务对其进行微调,隐藏在巨大参数中的丰富知识可以使各种下游任务受益。现在AI社区的共识是采用PTM作为下游任务的主干,而不是从头开始学习模型。在这篇论文中,来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入研究了预训练模型的历史,特别是它与迁移学习的特殊关系以及自监督学习,揭示了PTM是AI发展地图中的重要位置。论文地址:http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf清华大学教授启蒙项目负责人唐杰表示:这篇长达40多页的预训练模型回顾,基本上从技术上讲清了预训练的来龙去脉。此外,该研究还回顾了PTM的最新突破。这些突破得益于计算能力的激增和数据可用性的提高,目前正朝着四个重要方向发展:设计高效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后,本研究讨论了关于PTM的一系列未解决的问题和研究方向,希望他们的观点能对PTM的未来研究有所启发和推动。使用大规模PTM可以显着提高语言理解和语言生成任务的性能。图(a)近年语言模型相关文章发表数,图(b)近年应用NLPPTM后模型规模和数据规模的增长趋势。背景PTM最近引起了研究人员的关注,但预训练并不是一种新颖的机器学习工具。事实上,作为机器学习范式的预训练已经发展了很多年。本节介绍预训练在AI领域的发展,从早期的监督预训练到现在的自监督预训练,有助于理解PTM产生的背景。迁移学习和有监督的预训练早期预训练的研究主要涉及迁移学习。人们对迁移学习的研究很大程度上是因为人们可以依靠以前学到的知识来解决新问题,甚至取得更好的结果。更准确地说,迁移学习旨在从多个源任务中获取重要知识,然后将这些知识应用到目标任务中。在迁移学习中,源任务和目标任务可能具有完全不同的数据域和任务设置,但处理这些任务所需的知识是一致的。总的来说,迁移学习中被广泛探索的预训练方法有两种:特征迁移和参数迁移。在一定程度上,表示传递和参数传递奠定了PTM的基础。词嵌入建立在特征迁移的框架下,被广泛用作NLP任务的输入。自监督学习和自监督预训练如图4所示,迁移学习可以分为四个子设置:归纳迁移学习、转导迁移学习、自学习和无监督迁移学习。在这四种设置中,归纳和转导设置是研究的核心,因为这两种设置旨在将知识从受监督的源任务转移到目标任务。自监督学习和无监督学习在它们的设置中有许多相似之处。在某种程度上,自监督学习可以看作是无监督学习的一个分支,因为它们都工作在未标记的数据上。然而,无监督学习主要侧重于检测数据中的模式(例如,聚类、社区发现和异常检测),而自监督学习仍然处于监督设置的范式(例如,分类和生成)中。自监督学习的发展使得在大规模无监督数据上进行预训练成为可能。与作为深度学习时代CV基石的监督预训练相比,自监督预训练在NLP领域取得了长足的进步。随着NLP任务PTM的最新进展,基于Transformer的PTM作为NLP任务的主干已成为流程标准。受NLP中自监督学习和Transformers成功的启发,一些研究人员探索了用于CV任务的自监督学习和Transformers。这些初步努力表明,自监督学习和Transformers可以胜过传统的监督CNN。TransformerandRepresentationalPTM论文的第三部分从占主导地位的基本神经架构Transformer开始,然后介绍了两个具有里程碑意义的基于Transformer的PTM,GPT和BERT,它们分别使用自回归语言建模和自动编码器。语言建模作为预训练目标。本节最后简要回顾了GPT和BERT之后的典型变体,以阐明PTM的最新发展。Transformer在Transformer之前,RNN长期以来一直是处理顺序数据,尤其是自然语言的典型神经网络。与RNN相比,Transformer是一种encoder-decoder结构,它应用了self-attention机制,可以并行建模输入序列的所有单词之间的相关性。在Transformer的编码和解码阶段,Transformer的自注意力机制计算所有输入词的表示。下图5给出了一个例子,self-attention机制准确捕捉到了“Jack”和“he”之间的引用关系,从而得到最高的attentionscore。由于其突出的特性,Transformer正逐渐成为自然语言理解和生成的标准神经架构。GPTGPT是第一个将现代Transformer架构与自我监督预训练目标相结合的模型。实验表明,GPT在几乎所有的NLP任务中都取得了显着的成功,包括自然语言推理、问答等。在GPT的预训练阶段,通过Transformer对每个词的条件概率进行建模。如下图6所示,对于每个单词,GPT通过对其前一个单词应用多头自注意力操作,然后是位置前馈层来计算其概率分布。BERTBERT的出现也极大地促进了PTM领域的发展。理论上,与GPT不同,BERT采用双向深度Transformer作为主要结构。还有两个独立的阶段使BERT适应特定任务,即预训练和微调(如下图7所示)。经过预训练,BERT可以获得下游任务的鲁棒参数。在GPT之后,BERT在17个不同的NLP任务上进一步取得了显着的提升,包括SQuAD(优于人类表现)、GLUE(绝对提升7.7%)、MNLI(绝对提升4.6%)等。经过GPT和BERT之后,经过GPT和BERT,一些改进的模型也出现了,例如RoBERTa和ALBERT。如下图8所示,为了更好地从未标记数据中获取知识,除了RoBERTa和ALBERT之外,近年来还提出了各种PTM。一些工作改进了模型架构并探索了新的预训练任务,例如XLNet、MASS、SpanBERT和ELECTRA。DesigningEffectiveArchitectures在这一部分中,论文更深入地探讨了after-BERTPTM。基于Transformer的PTM的成功启发了一系列用于自然语言和其他序列建模的新架构。一般来说,所有用于语言预训练的after-BERTTransformer架构都可以分为两种动机:统一序列建模和认知启发架构。此外,论文还在第III小节中简要介绍了其他重要的BERT变体,主要侧重于提高自然语言理解能力。统一序列建模研究人员发现了一系列新架构,旨在通过单个PTM统一不同类型的语言任务。本文描述了这些发展并讨论了它们对统一自然语言处理的启发。结合自回归和自编码器建模,包括XLNet(Yangetal.,2019)和MPNet(Songetal.,2020)。除了置换语言建模,另一个方向是多任务训练,例如UniLM(Dongetal.,2019)。最近,GLM(Duetal.,2021)提出了一种更优雅的方法来结合自回归和自编码器。有应用通用编码器-解码器的模型,包括MASS(Song等人,2019)、T5(Raffel等人,2020)、BART(Lewis等人,2020a)和典型seq2seq任务中指定的模型,例如如PEGASUS(Zhangetal.,2020a)和PALM(Bietal.,2020)。受认知启发的架构要追求人类水平的智能,了解我们认知功能的宏观架构至关重要,包括决策制定、逻辑推理、反事实推理和工作记忆(Baddeley,1992)。该论文概述了受认知科学启发的新尝试,重点关注可持续工作记忆和可持续长期记忆。可持续工作记忆,包括基于Transformer的架构,例如Transformer-XL(Dai等人,2019年)、CogQA(Ding等人,2019年)和CogLTX(Ding等人,2020年)。可持续的长期记忆。REALM(Guu等人,2020年)是探索如何为变形金刚构建可持续外部记忆的先驱。RAG(Lewisetal.,2020b)将掩码预训练扩展到自回归生成。更多PTM变体除了统一序列建模和构建受认知启发的架构外,当前大多数研究都集中在优化BERT的架构以提高语言模型在自然语言理解方面的性能。一系列旨在改进掩蔽策略的工作,可以看作是一种数据增强(Guetal.,2020),包括SpanBERT(Joshietal.,2020),ERNIE(Sunetal.,2019b,c)、NEZHA(Weietal.,2019)和WholeWordMasking(Cuietal.,2019)。另一个有趣的举措是将mask预测目标更改为更困难的目标,例如ELECTRA(Clark等人,2020)。LeveragingMulti-SourceData本节介绍一些典型的利用多源异构数据的PTM,包括多语言PTM、多模态PTM和知识增强PTM。多语言预训练在大规模英语语料库上训练的语言模型在许多基准测试中取得了巨大的成功。然而,我们生活在一个多语言的世界中,由于所需的成本和数据量,为每种语言训练一个大型语言模型并不是最佳解决方案。因此,训练模型学习多语言表示而不是单语言表示可能是更好的方法。在BERT之前,一些研究人员已经探索了多语言表征。学习多语言表示的方法主要有两种:一种是通过参数共享进行学习;另一个是学习与语言无关的约束。这两种方法都使模型能够应用于多语言场景,但仅限于特定任务。BERT的出现表明,在一般的自监督任务上进行预训练,然后在特定的下游任务上进行微调的框架是可行的。这促使研究人员设计任务来预训练具有多种功能的多语言模型。根据任务目标,多语言任务可分为理解任务和生成任务。一些理解任务首先用于在非平行多语言语料库上预训练多语言PTM。然而,MMLM(多语言掩码语言建模)任务不能很好地利用平行语料库。除了TLM(翻译语言建模),还有一些其他有效的方法可以从平行语料库中学习多语言表示,例如Unicoder(Huang等人,2019a)、ALM(Yang等人,2020)、InfoXLM(Chi等人,2020)。al.,2020b)、HICTL(Weietal.,2021)和ERNIE-M(Ouyangetal.,2020)。此外,本研究还广泛探索了多语言PTM的生成模型,例如MASS(Songetal,2019)、mBART(Liuetal,2020c)。多模态预训练基于图文PTM,目前的解决方案是采用视觉语言BERT。ViLBERT(Lu等人,2019年)是一种用于学习图像和语言的与任务无关的联合表示模型。它使用三个预训练任务:MLM、句子图像对齐(SIA)和掩蔽区域分类(MRC)。另一方面,VisualBERT(Lietal,2019)扩展了BERT架构。一些多模式PTM旨在解决特定任务,例如VQA。B2T2(Albertietal.,2019)是一个主要关注VQA的模型。LP(Zhouetal,2020a)专注于VQA和图像字幕。此外,UNITER(Chen等人,2020e)学习了两种模式之间的统一表示。OpenAI的DALLE(Rameshetal.,2021)、清华大学和BAAI的CogView(Dingetal.,2021)在条件零样本图像生成方面迈出了更大的一步。最近,CLIP(Radford等人,2021年)和WenLan(Huo等人,2021年)探索了扩大网络规模数据以进行V&L预训练,并取得了巨大成功。用于增强知识预训练的结构化知识的典型形式是知识图谱。许多作品试图通过集成实体和关系嵌入或它们与文本的对齐来增强PTM。王等。(2021)将语言模型损失和知识嵌入损失相结合,以获得基于维基数据实体描述的预训练模型的知识增强表示。一个有趣的尝试是OAGBERT(Liuetal.,2021a),它集成了OAG(开放学术图谱)中的异构结构知识(Zhangetal.,2019a),覆盖了7亿个异构实体和200亿个关系。与结构化知识相比,非结构化知识更完整,但也更嘈杂。第六章至第八章概述提高计算效率研究人员从以下三个方面介绍了如何提高计算效率:系统级优化,包括单设备优化和多设备优化;高效的预训练,包括高效的训练方法和高效的模型架构;模型压缩,包括参数共享、模型剪枝、知识蒸馏和模型量化。解释和理论分析除了介绍PTM在各种NLP任务上的优越性能外,研究人员还花时间解释PTM的行为,包括了解PTM的工作原理和揭示PTM捕获的模式。他们探索了PTM的几个重要属性——知识、稳健性和结构稀疏性/模块化——还回顾了PTM理论分析的开创性工作。关于PTM的知识,PTM捕获的隐性知识大致可以分为两类,即语言知识和世界知识。关于PTM的鲁棒性,当研究人员为实际应用部署PTM时,鲁棒性已成为严重的安全威胁。Futuredirections最后,研究人员指出,基于现有工作,PTM未来可以在以下几个方面进一步发展:体系结构和预训练方法多语言和多模态预训练计算效率理论基础模型边缘学习认知学习新类型的应用程序。事实上,研究界在上述方向上已经做了很多努力,也取得了一些最新进展。但需要看到的是,还有一些问题需要进一步解决。有关更多详细信息,请参阅原始论文。