当前位置: 首页 > 科技观察

颠覆大规模预训练!清华杨志林课题组提出全新NLP学习框架TLM,学习效率×100倍

时间:2023-03-19 10:17:34 科技观察

近日,清华大学团队提出高效NLP学习框架,无需预训练,仅使用1%的算力和1%的训练语料条件下,在很多NLP任务上取得了媲美甚至超越预训练模型的性能。这项研究的结果质疑大规模预训练语言模型的必要性:我们真的需要大规模预训练才能达到最佳效果吗?  基于预训练语言模型(PLM)的方法在自然语言处理领域蓬勃发展,并在各种标准自然语言任务上取得了最先进(SOTA)的性能。强大的性能使其成为解决NLP任务的标准方法之一。  尽管如此,预训练严重依赖大量计算资源的现状,导致只有少数机构或组织有足够的资源开展预训练的探索,大部分研究者转向下游需要较少资源的微调算法研究。然而,微调算法性能的上限在很大程度上也受到预训练模型性能的制约。  这种“昂贵且中心化”的研究模式限制了能够为NLP社区做出贡献的民间研究人员的边界,也极大地制约了该领域的长远发展。  清华大学的研究人员针对这个问题提出了一种新的高效学习框架:“TLM(Task-drivenLanguageModeling)”。  论文地址:https://arxiv.org/pdf/2111.04130.pdf  项目地址:https://github.com/yaoxingcheng/TLM  TLM框架不需要大规模预训练,只需要与传统的预训练模型(如RoBERTa)相比,只需要大约1%的训练时间和1%的语料,就可以在很多方面达到与预训练模型相当甚至更好的性能任务。  作者希望TLM的提出能够引发NLP研究者重新审视现有的预训练-微调范式,促进NLP的民主化,加速NLP领域的进一步发展。  语言模型也能“暂时抱佛脚”?任务驱动的语言建模  我们有这样的观察:人类可以用有限的时间和精力高效地掌握某项技能。整个过程不需要掌握所有可能的知识和信息,只需要有针对性地学习核心部分。  比如考生考前补习,只需要突然学习重点内容就可以应对考试。受此现象启发,我们不禁要问:预训练的语言模型能否“临时抓佛脚”?  传统预训练-微调方法与TLM框架的对比  同样,作者假设预训练语言模型在特定任务上的表现仅受益于大规模通用语料中与任务相关的部分,并不需要大规模的全量数据。  该方法主要包括两个阶段:为了从大规模通用语料库中提取关键数据,TLM首先使用任务数据作为查询从通用语料库中召回相似数据;TLM从头开始??,根据任务数据和召回数据,根据任务目标和语言建模目标进行联合训练。基于任务数据的语料召回  首先根据任务数据从大规模通用语料中提取相关数据。  与大多数倾向于使用密集特征的文本匹配算法相比,本文作者另辟蹊径,采用基于稀疏特征的BM25算法[2]作为召回算法。简单高效,不依赖下游任务。监督信号。  同时,该算法完全不依赖于预训练模型,因此可以与传统的大规模预训练进行公平比较。  自监督任务与下游任务的联合训练  TLM基于筛选出的通用预测数据和任务数据,进行自监督任务与下游任务的联合训练。  作者使用传统的掩码语言模型(MaskedLanguageModeling)作为自监督训练任务。  训练损失函数  实验结果:小资源媲美大规模预训练语言主要结果  作者从三个不同尺度对8个自然语言分类任务进行了对比实验。这些任务涵盖生物医学、新闻、评论、计算机等领域,涵盖情感分类、实体关系抽取、主题分类等任务类型。  TLM在三种不同训练规模下的评估结果  与传统的预训练-微调范式相比,TLM在多领域和多任务类型的数据集上取得了大致相当甚至更好的结果。  而更大的优势在于TLM为了达到可比甚至更好的结果所使用的资源(包括FLOPs的计算量和使用的训练数据量)相比于对应的预训练的资源使用量是极低的-微调基准。尺寸大幅减小约两个数量级。参数效率分析  为了探索TLM效率更本质的来源,作者对模型的各个attentionhead输出的attention结果进行了可视化分析。  研究[1]指出“对角线”模式的注意力结果(如红框所示)是影响模型性能的关键因素,因为“对角线”模式将注意力集中在前一个或后续令牌,相邻令牌之间的相关性可以被捕获和建模。  注意力结果可视化分析  从可视化结果可以看出,TLM包含更多的“对角线”模式,即有更多的符号位置分散了对与其相邻的其他符号的注意力。  相比之下,原始的大规模预训练模型(BERT-Base和RoBERTa-Base)“对角线”模式更少,“垂直”模式更多(如灰色所示),这意味着更多的多符号位置将注意力集中在没有句法或语义信息的符号上,例如[CLS]、[SEP]或标点符号。  可以看出TLM的参数效率明显优于预训练语言模型,任务驱动使得TLM能够为下游任务学习到更多的语法和语义信息。消融实验  此外,作者还从数据选择策略、数据召回数量、多任务学习目标权重等多个角度进行了消融实验,以考察模型性能的稳定性和最优配置。  数据选择策略消融实验结果  在数据召回策略方面,与相同数量的随机选择相比,基于稀疏特征的BM25算法的最终结果有明显提升(约1-4分),证明它在类似于召回和任务数据的通用数据上是高效的。  Ablationexperimentresultsforoptimaldatarecall  Recallgeneraldataunsupervisedtrainingtargetweights(ρ1)andtaskdataunsupervisedtrainingtargetweights(ρ2)Ablationexperimentalresults  Foroptimaldatarecallandmultiple两者的结果-任务学习目标权重的因素消融实验显示了一个一致的结论:两个因素的选择与任务数据大小有很强的相关性:对于数据规模大的任务(如AGNews、RCT),需要相对更多的召回率。相似的通用数据很少,同时任务数据应该分配更大的比例;对于数据规模较小的任务(如ChemProt、SciERC),需要recall相对较多的generaldata来提供足够的信息,同时要给予generaldata的recall。无监督训练的目标是更大的权重。  TLMvsPLM:有什么优势?  综上所述,PLM以非常高的成本学习尽可能多的与任务无关的知识,而TLM以非常低的成本学习每个任务的相关知识。  TLM与PLM的比较  具体来说,与PLM相比,TLM还具有以下特点:1.民主化的  TLM的提出,打破了NLP研究中大规模计算资源的限制,只能开展相关探索的机构和人员很少的现状。基于TLM框架,大多数NLP研究人员可以以更低的成本和更高的效率自由探索和研究最先进的解决方案。2.灵活度  与PLM相比,TLM允许研究人员更灵活地根据具体任务定制标记策略、数据表示、序列长度、超参数等。这使得可以进一步提高性能和效率。3.效率  如实验结果所示,TLM每个任务消耗的FLOPs明显少于PLM。TLM和PLM分别适用于不同的情况——面对少量目标任务或domain-specificraretask时(例如NLP科研工作是对少量数据集进行实验和研究;行业面临极其特殊领域问题的解决),TLM是非常高效的选择;当需要一次性解决大量相似且常见的任务时(例如,一家公司需要构建一个统一的平台来为多方提供相似的服务),PLM的可重用性仍然赋予它优势。4.Generality  PLM学习task-independentgeneralrepresentation,强调通用性,而TLM通过学习task-relatedrepresentation,在一定程度上牺牲了generality以获得更高的效率。当然,也可以将PLM和TLM结合起来,在通用性和效率之间取得更好的权衡。总结与展望  TLM的提出给自然语言处理领域带来了“新面貌”。它使现有的NLP研究与昂贵的预训练分离,并使更多独立的NLP研究人员能够在更广阔的空间工作。自由探索成为可能。  未来可以开展更多基于TLM框架的研究,例如:如何进一步提高TLM的通用性和可移植性;如何更经济地实现更大规模预训练模型的性能等等。  作者简介  论文1是清华大学姚班本科四年级学生姚兴成。他也是今年流行的EMNLP验收论文SimCSE的合著者。  论文地址:https://arxiv.org/pdf/2104.08821.pdf  论文通讯作者为清华大学交叉信息研究院助理教授、RecurrentAI联合创始人杨志林。做出了Transformer-XL和XLNet、HotpotQA等NLP领域的热门作品。  论文的另外两位作者郑亚男和杨晓聪也来自清华大学。其中,郑亚男是今年早些时候备受瞩目的P调优(GPTUnderstands,Too)的合著者。  论文地址:https://arxiv.org/pdf/2103.10385.pdf