当前位置: 首页 > 科技观察

语言模型冰山一角:微调是不必要的,AI21Labs探索冻结模型未开发的潜力

时间:2023-03-19 15:26:04 科技观察

目前,针对给定的NLP任务优化性能的最佳方法通常是微调预训练语言模型(LM)。然而,这样做的一个副作用是其他任务的性能会相应下降。近年来,巨大的预训练语言模型(LM)在各种任务中展示了令人惊讶的零样本能力,这让许多研究人员产生了一种愿景,即单一的多功能模型可以用于不同的应用程序。得到广泛应用。然而,当前最先进的冻结LM技术(即保持模型权重不变)的性能不如以任务相关方式修改权重的微调方法。相反,如果研究人员可以容忍模型遗忘和多功能性受损,则还需要考虑性能和多功能性之间的权衡。AI21Labs的研究人员写了一篇文章《 STANDING ON THE SHOULDERS OF GIANT FROZEN LANGUAGE MODELS 》,该论文的主要信息是目前的冻结模型技术(如提示调整)只是冰山一角,那些利用冻结LM技术的更强大的方法可以很好-在具有挑战性的领域进行调整,同时不牺牲基础模型的多功能性。为了证明这一点,作者介绍了三种利用冻结模型的新方法:依赖于输入的提示调整;冻结的读者;递归LM,每一个都显着改进了当前的冻结模型方法。事实上,一些作者的方法甚至在他们目前主导的领域中表现优于微调方法。每种方法的计算成本都高于现有的冻结模型方法,但相对于巨大的冻结LM的单次传递而言仍然可以忽略不计。这些方法中的每一种本身都构成了有意义的贡献,但通过将它们结合在一起,该研究旨在让读者相信一个更广泛的信息,该信息超出了任何给定方法的细节:冻结模型具有未开发的潜力,并且微调通常是不必要。论文地址:https://arxiv.org/pdf/2204.10019.pdf一般来说,对大型LMs进行fine-tuning往往可以取得优异的性能,但这种方法的训练成本很高。这篇论文表明存在一个更好的替代方案:冻结一个单一的、巨大的预训练LM,并学习更小的神经模块,这些模块专门针对不同的任务对LM进行专门化。更重要的是,这项研究表明大规模LM可以应用于实际问题,其中任务特定的神经中间模块的设计将取代微调。结果将是微调往往是一种不必要的浪费,关键是要找到站在大型冻结语言模型肩膀上的最佳方式。DependentInputPromptTuning在本节中,研究人员提出了一种称为DependentInputPromptTuning(ID-PT)的方法,该方法可用于大规模多任务LM,同时保持冻结状态。ID-PT用于训练一个非常小的外部网络,该网络将许多精选数据集之一作为输入,并动态创建一个神经线索,使冻结的LM准备好处理该输入(见图1)。该研究使用Sanh等人的训练集进行了实验。并与他们的模型进行比较,两者都是公开的。该研究在冻结了7B参数的J1-Large模型上进行了ID-PT,仅在一半的训练示例上训练后就达到了Sanh等人微调的11B参数T0++模型的性能。这表明LM无需微调也能取得很好的效果。维护单个冻结的LM并将其用作骨干,并执行ID-PT以在不同的任务套件上对其进行外部调整。此外,如后面部分所示,这使新的工作流能够通过部署单个巨大的LM来支持各种不同的NLP应用程序。ID-PT架构如图2所示,它由3个组件组成:(1)冻结的基于T5的编码器;(2)一个学习提示,用于调整提示生成器中冻结的T5编码器的功能(总共学习了330K个参数);(3)学习交叉注意网络,将T5编码器的可变长度输出序列(长度等于输入x的长度)转换为固定长度的线索p(x)。表1显示了每个任务集群和跨数据集的ID-PT+J1-Large和T0++的平均测试集分数。这两个模型似乎具有可比性,在某些任务集群上表现出更小的性能差异,而在其他任务集群上表现出更高的方差:ID-PT+J1-Large在情感和释义任务集群上表现更好,而T0++在以下方面优于ID-PT+J1-Large结构文本和摘要任务集群。总体而言,ID-PT+J1-Large在跨数据集的平均测试分数方面略优于T0++。图3显示了本研究训练期间在不同点观察到的ID-PT+J1-Large的平均开发集分数:LM或推理能力。因此,需要将强大的监督学习检索与大规模LM相结合。为了解决这个问题,该研究使用外部重新排序模块来增加在适合冻结LM上下文窗口的少量通道中获得答案的机会。虽然检索器相关性分数是根据问题和段落的单独密集表示计算的,但重新排序器在联合处理问题和文章后预测每个文档的相关性分数。提示调整冻结的LM以从出现在其上下文中的重新排序的文档中提取答案。表2显示了在将文档打包到LM的上下文窗口中时使用重新排序器的有用性。当使用DPR作为检索系统时,该研究将LM输入的召回率(即答案出现在冻结LM的上下文窗口中的问题的百分比)从77.2%提高到80.4%,提高了下游性能(通过精确测量匹配)增加了2.1个百分点(从46.6%增加到48.7%)。同样,该研究观察到使用更强大的检索器(如Spider+BM25)时重新排序的显着收益。表3显示了系统与NQ测试集上各种生成基线的比较结果。冻结J1-Grande-17B阅读器取得了最好的结果,超过了FiD模型分数。总的来说,结果表明,巨大的冻结语言模型可以作为ODQA的良好阅读器,并且不会落后于更精致、突出、微调的阅读器。将循环应用于冻结的LM模型到现有的基于Transformer的LM应用程序仅通过LM运行给定输入一次。虽然这是一个自然的选择,但在大多数其他DNN应用中,研究人员发现了LM设计模式差异的机会。由于LM的输入和输出空间都使用自然语言,并且由于相同的LM可以提供多种功能,因此原则上可以将LM重新应用于其自己的输出,这种操作称为“LM循环”。在本节中,研究人员提出了两种不同的方法来将这一想法付诸实践(图5),并提供了每种方法都能产生显着收益的实验证据。在第4.1节中,介绍了一种文本方法,其中在第一次通过冻结LM后对输出文本进行采样,然后将其重新插入到相同的冻结LM中。在第4.2节中,提出了一种神经方法,其中一个小型可训练网络通过相同的冻结LM将冻结LM输出的向量表示映射到下一次迭代的向量表示输入。图5:(a)快速调谐可实现一次性冻结LM;(b)textrecurrentLMmethod(Section4.1)使用冻结的LM一次采样n个候选答案,然后再次采样正确答案;(c)神经递归LM方法(第4.2节)涉及一个经过训练的连接器,它将第一个LM门的输出嵌入转换为第二个LM门的输入嵌入。蓝色表示“冻结”,未经训练的模块;橙色表示经过训练的模块。对于闭卷环境中的开放域问答,研究人员评估了LM循环方法,重点关注自然问题基准(Kwiatkowski等人,2019年)。研究人员使用7B参数的LMJ1-Large进行了实验,结果表明,通过模型的两次迭代,两种方法都比传统的冻结模型方法(仅使用一个冻结模型)获得了实质性的收益,并且神经RecurrentLMs执行比文本循环LM更好。值得注意的是,通过7B参数模型的两次迭代,神经递归LM模型在单次传递中接近17B参数LMJ1-Grande的性能。通过递归地将LM应用于其自身输出来提高性能的前景有可能成为LM的商业游戏规则改变者。如果一个LM在某项任务上表现不理想,现有的垂直性能改进是预训练一个更大的LM。然而,预训练越来越大的LM很快变得昂贵,并且在评估时部署甚至巨大的模型也很昂贵。此外,仅某些任务或任务中的某些输入需要性能改进。通过在自己的输出上重新应用现有的LM来改进只需要单次前向传递的一半成本,或者如果需要的话将计算加倍,这是一种比预训练更密集、成本更低的选择,并且部署的模型大小是原来的两倍。有关研究的更多详细信息,请参阅原始论文。