当前位置: 首页 > 科技观察

清华唐杰团队:一篇看懂NLP预训练模型的前世今生

时间:2023-03-17 14:30:57 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。开创了全球最大预训练模型的启蒙团队,现在教大家如何理解预训练的概念。刚刚,清华大学唐杰教授和吴道团队发布了一篇关于预训练模型的综述:整篇论文40多页,从发展历史、最新突破和未来研究三个方向,完整回顾了大规模预训练模型(PTM)的过去和现在。现在让我们来看看这篇论文的主要内容。预训练的历史论文从预训练的发展过程说起。早期的预训练工作主要集中在迁移学习上,其中特征迁移和参数迁移是应用最广泛的两种预训练方法。从早期的监督预训练到现在的自监督预训练,将基于Transformer的PTM应用于NLP任务已经成为一种标准流程。可以说,最近PTM在各种任务上的成功,得益于self-supervisedpre-training和Transformer的结合。这就是论文Section3的主要内容:神经架构Transformer,以及基于Transformer的两个具有里程碑意义的预训练模型:BERT和GPT。两种模型分别使用自回归语言建模和自编码器语言建模作为预训练目标。后续所有的预训练模型都可以说是这两个模型的变种。例如,论文中的图片列出了近年来修改模型架构并探索新的预训练任务的许多PTM:最新突破性论文的第4-7节大规模预训练模型全面回顾最新的PTM的突破。这些突破主要是由计算能力的激增和越来越多的数据驱动的,并向以下四个方向发展:设计有效的架构在第4节中,论文深入研究了BERT家族及其变体PTM,并提到,所有Transformer-基于BERT架构的语言预训练可以分为两个动机:统一序列建模认知启发架构除此之外,目前大多数研究都集中在优化BERT架构以提高自然语言理解中的语言模型性能。使用多源数据许多典型的PTM使用具有不同数据持有者、类型和特征的多源异构数据。如多语言PTM、多模态PTM和知识(Knowledge)增强型PTM。提高计算效率第6节从三个方面介绍了如何提高计算效率。第一种方法是系统级优化,包括单设备优化和多设备优化。比如像ZeRO-Offload,设计了一个细粒度的策略来安排CPU内存和GPU内存之间的交换,让内存交换和设备计算尽可能重叠。第二种方法是探索更高效的预训练方法和模型架构,以降低解决方案的成本。三是模型压缩策略,包括参数共享、模型剪枝、知识蒸馏和模型量化。说明与理论分析对于PTM的工作原理和特点,论文在Section7做了详细解读。首先是PTM捕获的两类隐性知识:一类是语言知识,一般通过四种方法研究:表示检测、表示分析、注意力分析和生成分析。另一个是世界知识,包括常识和事实。随后的论文还指出,在近期相关工作的对抗样本中,PTM表现出严重的鲁棒性问题,即容易被同义词误导而做出错误的预测。最后,论文总结了PTM的结构稀疏性/模块化,以及PTM理论分析的开创性工作。未来的研究方向至此,本文回顾了PTM的前世今生。最后一节在上述各项工作的基础上指出了PTM未来可以进一步发展的七个方向:Architectureandpre-trainingmethodsincludenewArchitecture,newpre-trainingtasks,PromptTuning,reliability更多模态、解释、下游任务和迁移学习计算效率包括数据迁移、并行策略、大规模训练、封装和插件理论基础包括不确定性、泛化和鲁棒性Modeledge学习包括基于知识感知、模型存储和管理认知和知识学习包括知识增强、知识支持、知识监督、认知架构和知识的交互应用包括自然语言生成、对话系统、特定领域的PTM、领域适应和任务适应。论文最后还提到,不同于以自然语言形式表达的人类知识,即离散的符号,PTM中存储的知识是机器友好的连续实值向量。团队将这种知识模型命名为recognition,希望在未来以更高效的方式捕获模型识别,从而为特定任务找到更好的解决方案。更多详情请直接点击原文:http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20%20未来.pdf