当前位置: 首页 > 科技观察

GPT3、GooglePaLM全面爆发!Retrieval-enhancedmodelAtlas刷新知识型小样本任务SOTA

时间:2023-03-12 17:52:39 科技观察

不知不觉中,大模型+小样本已经成为小样本学习领域的主流方式。在很多任务的背景下,一个普遍的思路是先标注小数据样本,然后在预训练大模型的基础上,使用小数据样本进行训练。虽然,正如我们所看到的,大模型在很多小样本学习任务中取得了惊人的成绩,但它也自然而然地将大模型的一些先天劣势置于小样本学习的聚光灯下。小样本学习期望模型具有基于少量样本完成自主推理的能力。也就是说,理想的模型应该通过做题掌握解题思路,从而对新问题举一反三。但是,大模型+小样本的理想和实用的学习能力,似乎是靠大模型训练过程中存储的大量信息来记忆解决一个问题并回答它的过程。让人产生疑问,这样学习的学生真的是潜力生吗?MetaAI今天介绍的这篇论文,找到了一种将检索增强的方法应用到小样本学习领域的新途径。它不仅使用了64个例子,而且在自然问答数据集(NaturalQuestions)上也达到了42%。同时,它也比大模型PaLM减少了50倍的参数数量(540B—>11B),在可解释性、可控性和可更新性方面具有其他大模型所不具备的显着优势。优势。论文标题:Few-shotLearningwithRetrievalAugmentedLanguageModels论文链接:https://arxiv.org/pdf/2208.03299.pdfRetrievalEnhancedTracing论文以一个问题开头:“在小样本学习领域,是否真的有必要使用大量的参数来存储信息?”纵观大模型的发展,接连不断的大模型之所以能享受SOTA,其中一个原因就是其巨大的参数存储了问题所需要的信息。信息。自Transformer诞生以来,大模型一直是NLP领域的主流范式。随着大模型的逐渐发展,“大”的问题也不断暴露出来。问所谓“大”的必要性是很有意义的。论文作者从这个问题出发,给出了这个问题的否定答案,方法是检索增强模型。溯源检索增强,其实虽然其技术主要应用于开放域问答、机器阅读、文本生成等任务,但检索增强的思想可以追溯到NLP的RNN时代。RNN模型无法解决数据的长期依赖关系促使研究者广泛探索解决方案,而我们相当熟悉的Transformer利用Attention机制有效解决了该模型无法记忆的问题,从而开启预训练大模型时代。当时其实还有一种方式,就是CachedLM。它的核心思想是既然RNN一进考场可能记不住,不如让RNN去开卷考试。通过引入Cache机制,将训练时预测出的词保存在Cache中。在预测的时候,可以结合query的信息和Cache索引来完成任务,从而解决了当时RNN模型的不足。由此,检索增强技术走上了一条与依赖参数记忆信息的大型模型完全不同的道路。基于检索增强的模型允许引入来自不同来源的外部知识,这些检索来源具有训练语料库、外部数据和无监督数据等多种选择。检索增强模型一般由检索器和生成器组成。检索器根据查询从外部检索源获取相关知识,生成器结合查询和检索到的相关知识进行模型预测。归根结底,检索增强模型的目标是期望模型不仅学会记忆数据,而且学会自己查找数据。这一特性在许多知识密集型任务中具有很大的优势,检索增强模型在这些领域也取得了很大的成就。,但检索增强是否适用于小样本学习尚不清楚。回到MetaAI的这篇论文,检索增强在小样本学习中的应用测试成功,Atlas应运而生。模型结构Atlas有两个子模型,一个检索器和一个语言模型。当面对一个任务时,Atlas根据输入的问题,使用检索器从大量的语料库中生成最相关的top-k文档,然后将这些文档与问题query一起放入语言模型中,生成需要的Output.Atlas模型的基本训练策略是使用相同的损失函数一起训练检索器和语言模型。检索器和语言模型均基于预训练的Transformer网络,其中:检索器基于Contriever设计,Contriever使用无监督数据预训练,使用双层编码器,query和document独立编码进入编码器,通过对应输出的点积得到query和document的相似度。这种设计允许Atlas在没有文档注释的情况下训练检索器,从而显着降低内存需求。语言模型基于T5进行训练,将不同的文档和query拼接在一起,由encoder独立处理。最后,解码器对所有检索到的段落依次进行Cross-Attention,得到最终的输出。这种Fusion-in-Decoder方式帮助Atlas有效适应文档数量的膨胀。值得注意的是,作者对比测试了四种损失函数以及不对检索器和语言模型进行联合训练的情况。明显高于没有联合训练的正确率。因此,作者得出结论,这种检索器和语言模型的联合训练是Atlas小样本学习能力的关键。实验结果在大规模多任务语言理解任务(MMLU)中,与其他模型相比,Atlas在参数数量仅为11B时,参数数量是Atlas的15倍,准确率优于GPT-3。经过任务训练后,5-shot测试中的正确率甚至接近Gopher,是Atlas参数数量的25倍。在开放域问答的两个测试数据——NaturalQuestions和TriviaQA中,比较了Atlas等模型在64个例子上的表现和全训练集的表现。如下图所示,Atlas在64-shotSOTA上取得了新的成绩,在TrivuaQA上仅用64条数据就达到了84.7%的准确率。在事实核查任务(FEVER)中,Atlas在小样本上的表现也明显优于Gopher和ProoFVer,后者的参数是Atlas的几十倍。在15-shot任务中,它超过了Gopher5.1%。在自行发布的知识密集型自然语言处理任务基准KILT上,使用64个样本训练的Atlas在某些任务中的正确率甚至接近其他模型使用全样本获得的正确率。在使用全样本训练Atlas后,Atlas在所有五个数据集上刷新了SOTA。可解释性、可控性和可更新性根据本文的研究,检索增强模型不仅更小更好,而且在可解释性方面具有其他大型模型所不具备的显着优势。大模型的黑盒特性使得研究人员难以利用大模型来分析模型的运行机制,而检索增强模型可以直接提取检索到的文档,从而通过分析检索到的文章,Atlas工作可以获得。更好的理解。例如,论文发现在抽象代数领域,模型73%的语料库依赖维基百科,而在伦理领域,检索器提取的文档中只有3%来自维基百科,这在符合人的直觉。如下图左侧统计图所示,虽然模型更倾向于使用CCNet数据,但在更注重公式和推理的STEM领域,维基百科文章的使用率有明显提升。根据上图右侧的统计图,作者发现随着检索到的包含正确答案的文章数量的增加,模型的准确率也在不断提高。当文章不包含答案时,正确率只有55%,而当提到答案超过15次时,正确率达到77%。此外,当对50名检索者检索到的文件进行人工检查时,发现其中44%的文件包含有用的背景信息。显然,这些包含问题背景信息的材料可以为研究人员扩展阅读提供大量资源。帮助。一般而言,我们倾向于认为大型模型存在训练数据“泄漏”的风险,即有时大型模型对测试问题的回答不是基于模型的学习能力而是基于记忆能力的大模型。试题答案在大量语料中泄露,而在本文中,作者手动剔除可能泄露的语料信息后,模型正确率从56.4%下降到55.8%,仅下降了0.6%。可见,检索增强的方法可以有效规避模型作弊的风险。最后,可更新性也是检索增强模型的独特优势。检索增强模型可以不时更新,无需重新训练,只需要更新或替换它所依赖的语料库即可。通过构建时间序列数据集,如下图所示,在不更新Atlas参数的情况下,作者仅使用2020语料Atlas就达到了53.1%的正确率,有趣的是,即使是fine-tuningwith2020年的数据T5,T5同样表现不佳。笔者认为,很大程度上是因为T5预训练使用的数据是2020年之前的数据。结论我们可以想象一下,有3个学生。一名学生仅依靠死记硬背来解决问题。一个学生可以记住一道数学题的答案。同学们又一一作答,最后一个同学又聪明又聪明。简单的从课本上学了一些知识之后,他就可以自信的去考场指点了。显然,小样本学习的理想是成为第三名学生,但现实很可能停留在第一名学生之上。大模型很有用,但“大”绝不是模型的最终目的。回到小样本学习的初衷,期望模型具有与人类相似的推理判断和推论能力,那么我们可以看出这篇论文是从另一个角度出发的。最好向前迈出一步,至少让学生更容易不被那么多可能多余的知识塞满脑袋,而是拿起课本轻装上阵,或许即使让学生拿开卷考试的教材,会比学生死记硬背更接近智力!