语言模型冰山一角：微调是不必要的，AI21Labs探索冻结模型未开发的潜力

时间：2023-03-19 15:26:04 科技观察

目前，针对给定的NLP任务优化性能的最佳方法通常是微调预训练语言模型（LM）。然而，这样做的一个副作用是其他任务的性能会相应下降。近年来，巨大的预训练语言模型(LM)在各种任务中展示了令人惊讶的零样本能力，这让许多研究人员产生了一种愿景，即单一的多功能模型可以用于不同的应用程序。得到广泛应用。然而，当前最先进的冻结LM技术（即保持模型权重不变）的性能不如以任务相关方式修改权重的微调方法。相反，如果研究人员可以容忍模型遗忘和多功能性受损，则还需要考虑性能和多功能性之间的权衡。AI21Labs的研究人员写了一篇文章《 STANDING ON THE SHOULDERS OF GIANT FROZEN LANGUAGE MODELS 》，该论文的主要信息是目前的冻结模型技术（如提示调整）只是冰山一角，那些利用冻结LM技术的更强大的方法可以很好-在具有挑战性的领域进行调整，同时不牺牲基础模型的多功能性。为了证明这一点，作者介绍了三种利用冻结模型的新方法：依赖于输入的提示调整；冻结的读者；递归LM，每一个都显着改进了当前的冻结模型方法。事实上，一些作者的方法甚至在他们目前主导的领域中表现优于微调方法。每种方法的计算成本都高于现有的冻结模型方法，但相对于巨大的冻结LM的单次传递而言仍然可以忽略不计。这些方法中的每一种本身都构成了有意义的贡献，但通过将它们结合在一起，该研究旨在让读者相信一个更广泛的信息，该信息超出了任何给定方法的细节：冻结模型具有未开发的潜力，并且微调通常是不必要。论文地址：https://arxiv.org/pdf/2204.10019.pdf一般来说，对大型LMs进行fine-tuning往往可以取得优异的性能，但这种方法的训练成本很高。这篇论文表明存在一个更好的替代方案：冻结一个单一的、巨大的预训练LM，并学习更小的神经模块，这些模块专门针对不同的任务对LM进行专门化。更重要的是，这项研究表明大规模LM可以应用于实际问题，其中任务特定的神经中间模块的设计将取代微调。结果将是微调往往是一种不必要的浪费，关键是要找到站在大型冻结语言模型肩膀上的最佳方式。DependentInputPromptTuning在本节中，研究人员提出了一种称为DependentInputPromptTuning(ID-PT)的方法，该方法可用于大规模多任务LM，同时保持冻结状态。ID-PT用于训练一个非常小的外部网络，该网络将许多精选数据集之一作为输入，并动态创建一个神经线索，使冻结的LM准备好处理该输入（见图1）。该研究使用Sanh等人的训练集进行了实验。并与他们的模型进行比较，两者都是公开的。该研究在冻结了7B参数的J1-Large模型上进行了ID-PT，仅在一半的训练示例上训练后就达到了Sanh等人微调的11B参数T0++模型的性能。这表明LM无需微调也能取得很好的效果。维护单个冻结的LM并将其用作骨干，并执行ID-PT以在不同的任务套件上对其进行外部调整。此外，如后面部分所示，这使新的工作流能够通过部署单个巨大的LM来支持各种不同的NLP应用程序。ID-PT架构如图2所示，它由3个组件组成：(1)冻结的基于T5的编码器；(2)一个学习提示，用于调整提示生成器中冻结的T5编码器的功能（总共学习了330K个参数）；(3)学习交叉注意网络，将T5编码器的可变长度输出序列（长度等于输入x的长度）转换为固定长度的线索p(x)。表1显示了每个任务集群和跨数据集的ID-PT+J1-Large和T0++的平均测试集分数。这两个模型似乎具有可比性，在某些任务集群上表现出更小的性能差异，而在其他任务集群上表现出更高的方差：ID-PT+J1-Large在情感和释义任务集群上表现更好，而T0++在以下方面优于ID-PT+J1-Large结构文本和摘要任务集群。总体而言，ID-PT+J1-Large在跨数据集的平均测试分数方面略优于T0++。图3显示了本研究训练期间在不同点观察到的ID-PT+J1-Large的平均开发集分数：LM或推理能力。因此，需要将强大的监督学习检索与大规模LM相结合。为了解决这个问题，该研究使用外部重新排序模块来增加在适合冻结LM上下文窗口的少量通道中获得答案的机会。虽然检索器相关性分数是根据问题和段落的单独密集表示计算的，但重新排序器在联合处理问题和文章后预测每个文档的相关性分数。提示调整冻结的LM以从出现在其上下文中的重新排序的文档中提取答案。表2显示了在将文档打包到LM的上下文窗口中时使用重新排序器的有用性。当使用DPR作为检索系统时，该研究将LM输入的召回率（即答案出现在冻结LM的上下文窗口中的问题的百分比）从77.2%提高到80.4%，提高了下游性能（通过精确测量匹配）增加了2.1个百分点（从46.6%增加到48.7%）。同样，该研究观察到使用更强大的检索器（如Spider+BM25）时重新排序的显着收益。表3显示了系统与NQ测试集上各种生成基线的比较结果。冻结J1-Grande-17B阅读器取得了最好的结果，超过了FiD模型分数。总的来说，结果表明，巨大的冻结语言模型可以作为ODQA的良好阅读器，并且不会落后于更精致、突出、微调的阅读器。将循环应用于冻结的LM模型到现有的基于Transformer的LM应用程序仅通过LM运行给定输入一次。虽然这是一个自然的选择，但在大多数其他DNN应用中，研究人员发现了LM设计模式差异的机会。由于LM的输入和输出空间都使用自然语言，并且由于相同的LM可以提供多种功能，因此原则上可以将LM重新应用于其自己的输出，这种操作称为“LM循环”。在本节中，研究人员提出了两种不同的方法来将这一想法付诸实践（图5），并提供了每种方法都能产生显着收益的实验证据。在第4.1节中，介绍了一种文本方法，其中在第一次通过冻结LM后对输出文本进行采样，然后将其重新插入到相同的冻结LM中。在第4.2节中，提出了一种神经方法，其中一个小型可训练网络通过相同的冻结LM将冻结LM输出的向量表示映射到下一次迭代的向量表示输入。图5：(a)快速调谐可实现一次性冻结LM；(b)textrecurrentLMmethod(Section4.1)使用冻结的LM一次采样n个候选答案，然后再次采样正确答案；(c)神经递归LM方法（第4.2节）涉及一个经过训练的连接器，它将第一个LM门的输出嵌入转换为第二个LM门的输入嵌入。蓝色表示“冻结”，未经训练的模块；橙色表示经过训练的模块。对于闭卷环境中的开放域问答，研究人员评估了LM循环方法，重点关注自然问题基准（Kwiatkowski等人，2019年）。研究人员使用7B参数的LMJ1-Large进行了实验，结果表明，通过模型的两次迭代，两种方法都比传统的冻结模型方法（仅使用一个冻结模型）获得了实质性的收益，并且神经RecurrentLMs执行比文本循环LM更好。值得注意的是，通过7B参数模型的两次迭代，神经递归LM模型在单次传递中接近17B参数LMJ1-Grande的性能。通过递归地将LM应用于其自身输出来提高性能的前景有可能成为LM的商业游戏规则改变者。如果一个LM在某项任务上表现不理想，现有的垂直性能改进是预训练一个更大的LM。然而，预训练越来越大的LM很快变得昂贵，并且在评估时部署甚至巨大的模型也很昂贵。此外，仅某些任务或任务中的某些输入需要性能改进。通过在自己的输出上重新应用现有的LM来改进只需要单次前向传递的一半成本，或者如果需要的话将计算加倍，这是一种比预训练更密集、成本更低的选择，并且部署的模型大小是原来的两倍。有关研究的更多详细信息，请参阅原始论文。

上一篇：鲍威尔：俄乌冲突凸显加密货币监管的必要性

下一篇：物联网创建智能管道监控的四种方式

语言模型冰山一角：微调是不必要的，AI21Labs探索冻结模型未开发的潜力相关文章