在NLP领域,pretrain-finetune和prompt-tuning技术可以提升大模型性能,如GPT-3在各种任务上,但是这种大型模型在零样本学习任务上的表现仍然不突出。为了进一步探索模型在零样本场景下的表现,GoogleQuocLe等研究人员训练了一个参数量为1370亿的自回归语言模型BaseLM,并在其中采用了新的指令调优技术。结果表明,在自然语言推理、阅读理解和开放域问答等未知任务上,采用指令调优技术的模型的零样本性能超过了GPT-3的少样本性能。大型语言模型(LM)已被证明非常适合小样本学习任务。比如OpenAI提出的GPT-3,参数量为1750亿。它不仅可以更好地回答问题、翻译和撰写文章,还具有一定的数学计算能力。无需微调即可在多个NLP基准测试中实现最先进的性能。然而,像GPT-3这样的大规模语言模型在零样本学习任务中表现不佳。例如,GPT-3在阅读理解、问答和自然语言推理等任务上的零样本性能比少样本性能差得多。在这篇论文中,QuocLe和来自谷歌的其他研究人员探索了一种简单的方法来提高大型语言模型在零样本情况下的性能以扩大受众。他们认为NLP任务可以用自然语言指令来描述,比如“这篇影评的情绪是正面的还是负面的?”或“将‘你好吗’翻译成中文”。该研究采用具有137B个参数的预训练模型,并针对通过自然语言指令表达的60多个NLP任务执行指令调优任务。他们将生成的模型称为FinetunedLANguageNet,或FLAN。论文地址:https://arxiv.org/pdf/2109.01652.pdfGitHub地址:https://github.com/google-research/flan。为了评估FLAN在未知任务上的零样本性能,研究基于NLP任务类型将其划分为多个集群,对每个集群进行评估,同时对其他集群上的FLAN进行指令调整。如下图1所示,为了评估FLAN执行自然语言推理的能力,该研究对模型进行了一系列其他NLP任务的训练,例如常识推理、翻译和情感分析。由于此设置确保FLAN在指令调优中看不到自然语言推理任务,因此可以评估其执行零样本自然语言推理的能力。评估表明,FLAN显着提高了模型的零样本性能(基础137B参数)。在25个评估任务中的19个上,FLAN零样本在175B参数下优于GPT-3零样本,甚至在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze等许多任务上的表现都明显优于GPT-3零样本。在GPT-3的小样本上。在消融研究中,发现在指令调优中增加任务集群的数量可以提高模型在未见任务上的性能,指令调优的好处只有在模型规模足够大时才会体现出来。这项研究的实证结果强调了语言模型使用自然语言指令描述任务的能力。更广泛地说,如图2所示,指令调优将预训练-微调功能与微调监督相结合,以提高语言模型在推理过程中响应文本交互的能力。FLAN:ImprovingZero-ShotLearningwithInstructionAdjustment指令调整的动机是提高语言模型响应NLP指令的能力,旨在通过监督来教会LM执行指令描述的任务。语言模型将学习遵循指令,即使是对于看不见的任务。为了评估模型在未见任务上的性能,研究根据任务类型将任务划分为多个集群,当其他集群进行指令调整时,留出一个任务集群进行评估。任务和模板该研究在Tensorflow数据集上汇总了62个公开可用的文本数据集(包括语言理解和语言生成任务)。下面的图3显示了本研究中使用的所有数据集;每个数据集都被归类到十二个任务集群之一,每个集群中的数据集共享相同的任务类型。该研究将任务定义为数据集给出的一组特定的输入输出对。对于每项任务,研究人员使用自然语言指令手动编码十个描述任务的独特模板。十个模板中的大部分描述了原始任务,但为了增加多样性,研究人员为每个任务提供了最多三个“扭转任务”的模板。下面的图4显示了自然语言推理任务的多指令模板。训练细节模型架构和预训练。在实验中,该研究使用密集的从左到右、仅解码器、137B参数转换器语言模型。该模型在一组网络文档(包括包含计算机代码的文档)、对话数据和维基百科上进行了预训练。使用SentencePiece库(Kudo&Richardson,2018)将这些文档标记为2.81TBPE标记和32K标记词。表面。大约10%的预训练数据是非英语的。这个数据集不像GPT-3训练集那么干净,而且还混合了对话和代码。实验结果研究人员评估了FLAN在自然语言推理、阅读理解、开放域问答、常识推理、共指消解和翻译等多项任务上的表现。对于每项任务,他们报告了所有模板的平均性能误差和标准误差,这代表了FLAN在给定典型自然语言指令的情况下的预期性能。自然语言推理任务下面的表1显示了针对自然语言推理测试的不同模型的结果,其中给定前提和假设-如果给定前提为真,则模型必须确认假设为真。可以看出,FLAN在所有情况下都表现出很强的性能。尽管CB和RTE的不同模板的结果差异很大,但在没有任何及时工程的情况下,FLAN在四个数据集上仍然明显优于零样本和少样本GPT-3。使用最好的开发模板,FLAN在五个数据集上的表现优于few-shotGPT-3。FLAN在ANLI-R3数据集上的表现甚至优于有监督的BERT。阅读理解和开放领域问答任务在阅读理解任务中,模型被要求回答关于文章给定段落的问题,结果如下表2所示。FLAN在BoolQ和OBQA数据集上的表现明显优于GPT-3。当使用最佳开发模板时,FLAN在MultiRC数据集上的表现略优于few-shotGPT-3。对于开放域问答任务,FLAN在ARC-easy和ARC-challenge数据集上明显优于零样本和少样本GPT-3。在NaturalQuestions数据集上,FLAN优于zero-shotGPT-3,但弱于few-shotGPT-3。不同模型的常识推理和共指消解任务在五个常识推理数据集上的结果如下表3所示。FLAN在StoryCloze数据集上优于GPT-3,在CoPA和PiQA数据集上与GPT-3相当。但在HellaSwag和ReCoRD数据集上,BaseLM和FLAN都弱于GPT-3。在两个共指消解任务中,具有最佳开发模板的FLAN在Winogrande数据集上优于零样本GPT-3,但BaseLM和FLAN在WSC273数据集上均弱于GPT-3。翻译研究人员还在GPT-3论文中评估的三个数据集上测试了FLAN的机器翻译性能:WMT'14法语-英语和WMT'16德语-英语和罗马尼亚语-英语。测试结果示于下表4中。BaseLM的零样本翻译性能较弱,但小样本翻译结果与GPT-3相当。FLAN在六个评估指标中的五个方面优于few-shotBaseLM。与GPT-3类似,FLAN在翻译成英语的任务中表现出色,与监督翻译基线相比具有优势。其他实验由于本文的中心问题是指令调优如何提高模型在未见任务上的零样本性能,因此该研究的第一个消融实验调查了指令调优中使用的集群和任务数量对性能的影响。图5显示了实验结果。正如预期的那样,研究人员观察到,随着额外的集群和任务被添加到指令调优中(情感分析集群除外),3个保留集群的平均性能得到改善,证实了所提出的指令调优方法有助于新任务.提高零射击性能。下面图6中的结果表明,对于较大的模型,指令调优填充了部分模型容量,但也教会了这些模型遵循指令的能力,从而使模型能够将剩余容量泛化到新任务。
