当前位置: 首页 > 科技观察

清华无需大规模预训练,提出高效NLP学习框架TLM

时间:2023-03-17 11:36:40 科技观察

近日,清华大学研究人员提出了一种简单高效的NLP学习框架。与目前NLP界主流的大规模预训练+下游任务微调(pretraining-finetuning)的范式不同,该框架不需要大规模预训练。与传统的预训练语言模型相比,该框架将训练效率(TrainingFLOPs)提升了两个数量级,在多个NLP任务上取得了媲美甚至超越预训练模型的性能。这项研究的结果质疑大规模预训练语言模型的必要性:大规模预训练对下游任务有多大贡献?我们真的需要大量的预训练来获得最好的结果吗?论文地址:https://arxiv.org/pdf/2111.04130.pdf项目地址:https://github.com/yaoxingcheng/TLM预训练语言模型因其强大的性能受到广泛关注,基于预训练-微调(pretraining-finetuning)范式也成为许多NLP任务的标准方法。然而,目前通用语言模型的预训练成本极高,这使得只有少数资源充足的研究机构或组织才能对其进行探索。这种“昂贵且中心化”的研究模式限制了民间研究人员为NLP社区做出贡献的边界,甚至为该领域的长期发展制造了障碍。最近,为了缓解这种情况,清华大学的研究人员提出了一种完全不需要预训练语言模型的高效学习框架。该框架从普通语料库中筛选出与下游任务相关的子集,与下游任务联合训练语言建模任务。研究人员称之为TLM(任务驱动语言建模)。与传统的预训练模型(如RoBERTa)相比,TLM只需要大约1%的训练时间和1%的语料,在很多NLP任务上的性能可以达到甚至超过预训练模型(如图1)所示。研究人员希望TLM的提出能够引发对现有预训练微调范式的更多思考,促进NLP的民主化。语言模型会“崩溃”吗?任务驱动语言建模TLM的动机源于一个简单的观察:人类可以通过仅学习关键信息,以有限的时间和精力快速掌握某项任务技能。例如,在备考时,焦虑的学生只需要根据考试大纲复习和浏览几个相关章节即可应对考试,而不是学习所有可能的知识点。同样,我们也可以推测,预训练语言模型在下游任务上的优异表现,大多来源于语料库中与下游任务相关的数据;只有使用与下游任务相关的数据,我们才能获得与全量数据相似的数据。结果。为了从大规模的通用语料库中提取关键数据,TLM首先使用任务数据作为查询,从通用语料库中召回相似数据。这里作者选择基于稀疏特征的BM25算法[2]作为召回算法。之后,TLM基于任务数据和召回数据,同时优化任务目标和语言建模目标(如下图公式所示),从头进行联合训练。1%算力+1%语料即可匹配预训练语言模型为了测试TLM的性能,研究人员对来自三个不同尺度的8个NLP分类任务进行了对比实验。这8个任务涵盖计算机科学、生物医学、新闻和评论4个领域,包括训练样本量小于5000的低资源任务(HyperpartisanNews、ACL-ARC、SciERC、Chemprot)和训练样本量更大的任务超过20,000。高资源任务(IMDB、AGNews、Helpfulness、RCT),涵盖主题分类、情感分类、实体关系抽取等任务类型。从实验结果可以看出,TLM实现了与相应的预训练-微调基线相当甚至更好的性能。平均而言,TLM将训练计算量(TrainingFLOPs)和训练语料库的大小减少了两个数量级。任务驱动语言模型(TLM)与预训练语言模型(PLM)表1直接比较了TLM和PLM。总体而言,PLM以非常高的成本学习尽可能多的与任务无关的知识,而TLM以非常低的成本学习每个任务的相关知识。比较TLM和PLM有以下特点。1.促进NLP研究的公平和民主化(Democratization)预训练本身就非常依赖大量的计算资源。这种局限性使得大多数NLP研究人员专注于微调算法的研究。然而,微调性能的上限在很大程度上受到预训练模型性能的限制。TLM允许大多数研究人员以更低的成本和更高的效率,基于最先进的解决方案自由探索模型架构、损失函数、算法等。2.效率(Efficiency)TLM在每个任务的平均FLOPs消耗上明显优于PLM。当我们有少量的目标任务需要解决时(例如,研究人员要研究少量的数据集),TLM会非常高效;但是,当需要一次性解决大量任务时(例如业界为多方提供类似服务搭建NLP平台),PLM还是有优势的。3.灵活性(Flexibility)TLM是任务驱动的,因此它可以给研究者更多的自由来定制标记、序列长度、数据表示、超参数调整等策略,从而达到提高性能和效率的目标。4.通用性(Generality)PLM学习一种与任务无关的通用表示,可用于小样本和零样本学习,而TLM在一定程度上通过学习与任务相关的表示来牺牲通用性来换取效率。从这个意义上说,TLM在通用性方面需要进一步提高。此外,还可以将PLM和TLM结合起来,在通用性和效率之间取得更好的权衡。深入了解TLM:为下游任务提供更多参数为了深入了解TLM的工作原理,研究人员将模型的每个注意力头输出的注意力分数可视化。可以观察到,TLM的注意力模式包含更多的“对角线”模式(图3中的红色框),即大多数token将注意力分数分配给其相邻的token。事实证明,人类工作[1]对模型的最终预测做出了重要贡献。预训练模型(BERT、RoBERTa)包含大量“垂直”模式的attentionheads(图3中的灰色区域),即大部分token将attentionscores分配给[CLS]、[SEP]或periods这种词汇没有语义或句法信息。这种现象表明TLM中的参数利用率明显高于预训练语言模型,TLM可能为下游任务学习到更多语义信息表示。总结TLM的提出使得NLP研究摆脱了预训练和微调范式成为可能,这使得NLP研究者可以更自由地探索新兴的模型结构和训练框架,而不必局限于大规模的预训练模型。未来可以在TLM的基础上开展更多有趣的研究,例如:如何经济地实现更大的预训练模型的性能;如何提高TLM的通用性和可移植性;TLM是否可以用于小样本或零样本学习等等。