当前位置: 首页 > 科技观察

热点解读:大模型的涌现能力与ChatGPT引爆的范式转换

时间:2023-03-20 16:08:02 科技观察

最近,人们对大语言模型所展现的强大能力表现出了极大的兴趣(如思维链[2]、便签本[3]]),并进行了大量的工作。我们将这些统称为大型模型的涌现能力[4],这些能力可能[5]只存在于大型模型中,而不存在于较小的模型中,因此称为“涌现”。这些能力中有很多是相当令人印象深刻的,比如复杂推理、知识推理和分布外鲁棒性,我们稍后会详细讨论。值得注意的是,这些能力接近NLP社区几十年来一直在寻求的能力,因此代表了一种潜在的研究范式转变,从微调小模型到使用大模型进行上下文学习。对于先行者来说,范式转变可能是显而易见的。然而,为了科学的严谨性,我们确实需要非常明确的理由说明人们应该转向大型语言模型,即使这些模型很昂贵[6]、难以使用[7]并且可能很平庸[8]。在这篇文章中,我们将仔细研究这些能力是什么,大型语言模型可以提供什么,以及它们在更广泛的NLP/ML任务中的潜在优势。原文链接:yaofu.notion.site/A-Closer-Look-at-Large-Language-Models-Emergent-Abilities-493876b55df5479d80686f68a1abd72f目录前提:我们假设读者具备以下知识:预训练、微调、提示(普通从业者应具备自然语言处理/深度学习能力)思维链提示、草稿本(普通从业者可能看不懂,但不影响阅读)1.emergentability存在于大模型而非小模型中图片来自魏。等。阿尔。2022.思维链提示在大型语言模型中引发推理。X轴是模型大小。GSM8K是小学数学题集。在上面的效果图中,我们可以观察到模型的表现:尺寸比较小的时候,提升不大;当模型变大时,会有显着的改善。这从根本上说明,有些能力在小模型中可能不存在。,但在较大的模型中获得。涌现能力有很多种,例如Wei等人提出的。2022年[9]。有些能力很有趣,但我们不会在本文中讨论它们,比如拼写一串单词的最后一个字母,我们认为这是Python而不是语言模型的任务;或者3位加法,我们认为是计算机器应该做什么,而不是语言模型。在本文中,我们主要关注以下能力:1.NLP界近年来关注的能力,但以往的NLP模型难以实现的能力2.源于人类最深层本性的能力language(depthofability)3.可能达到人类智力最高水平的能力(能力上限)II.涌现能力的三个典型例子许多有趣的能力都可以归为上述类别。其中,我们主要讨论以下三种典型能力:复杂推理、知识推理、分布外鲁棒性,接下来让我们一一详细讨论。复杂推理这是GSM8K数据集中的一个示例,其中提示词明显优于微调:虽然这个问题对于10岁的孩子来说很容易,但对于语言模型来说却很困难,主要是由于数学和语言混合在一起.GSM8K最初由OpenAI于2021年10月提出[10]。当时他们用[11]第一版GPT3在整个训练集上微调,准确率在35%左右。这个结果让作者相当悲观,因为他们的结果显示了语言模型的缩放定律:随着模型大小呈指数增长,性能呈线性增长(我将在后面讨论)。因此,他们在第4.1节中思考:“175B模型似乎需要至少两个数量级的训练数据才能达到80%的解决率。”三个月后,即2022年1月,Wei等人。[12]基于540BPaLM模型仅使用8个thought-chainhint示例将准确率提高到56.6%(没有将训练集增加两个数量级)。然后在2022年3月,Wang等人。[13]基于相同的540BPaLM模型通过多数投票将准确度提高到74.4%。当前的SOTA来自我自己在AI2上的工作(Fuet.al.Nov2022[14]),我们通过使用复杂的思维链在175BCodex上实现了82.9%的准确率。从上面的进展可以看出,技术进步确实呈指数级增长。思维链提示是模型随规模涌现能力的典型例子:从涌现能力来看:只有当模型大于100B时,思维链的效果才会大于100B。唯一的回答提示。所以这种能力只存在于大型模型中。从效果来看:思想链提示的表现明显优于其之前的微调[15]方法。从标注效率来看:思维链提示只需要标注8个样例,而fine-tuning则需要完整的训练集。可能有的同学会觉得模型能做小学数学没什么意思(某种意义上,真的没那么酷)。但GSM8K仅仅是个开始,最近的工作已经将前沿领域推向了高中[16]、大学[17],甚至是国际数学奥林匹克问题[18]。现在凉快了吗?知识推理下一个例子是需要知识的推理能力(如问答和常识推理)。在这种情况下,在大模型上进行暗示并不一定比微调小模型更好(哪个更好还有待观察)。但这种情况下的标注效率被放大了,因为:在许多数据集中,为了获得所需的背景/常识知识,(以前很小的)模型需要外部语料库/知识图来检索[19],或者需要在增强的[20]datathroughmulti-tasklearning对于大型语言模型,检索器[21]可以直接移除,仅依赖模型的内部知识[22],不需要进行微调。图片来自Yu等人。阿尔。2022.以前的SOTA模型需要从外部知识源中检索。在没有检索的情况下,GPT-3的表现与之前的模型相当/更好。如表中所示,与数学示例不同,GPT-3并没有明显优于之前的微调模型。但它不需要从外部文档中检索并且包含知识本身[23]。要理解这些结果的意义,我们可以回顾历史:从一开始,NLP社区就面临着如何高效编码知识的挑战。人们一直在探索将知识存储在模型外部或模型内部的方法。从20世纪90年代开始,人们就试图将语言和世界的规则记录成一个巨大的图书馆,将知识存储在模型之外。但这非常困难,毕竟我们不能穷举所有的规则。因此,研究人员开始构建特定领域的知识库,以非结构化文本、半结构化(如维基百科)或全结构化(如知识图谱)的形式存储知识。一般来说,结构化知识很难构建(因为知识结构的设计),但易于推理(因为有结构),非结构化知识易于构建(直接存储即可),但难以使用用于推理(没有系统)结构)。然而,语言模型提供了一种新方法,可以轻松地从非结构化文本中提取知识,并在不需要预定义模式的情况下对其进行有效推理。下表比较了优缺点:分布外鲁棒性我们讨论的第三个能力是分布外鲁棒性。2018年到2022年间,在NLP、CV和通用机器学习中有大量关于分布偏移/对抗鲁棒性/组合生成的研究,人们发现当测试集分布与训练分布不同时,型号可能不同。会明显下降。然而,在大型语言模型的上下文学习中,情况似乎并非如此。Si等人的研究。[24]in2022显示:数据来自Si等人。阿尔。2022年,GPT-3虽然在相同分布设置下比RoBERTa差,但在非均匀分布设置下优于RoBERTa,性能下降明显更小。另外,在这个实验中,GPT-3在同分布下基于cuewords的效果不如fine-tunedRoBERTa。但它在其他三个分布(域切换、噪声和对抗性扰动)中优于RoBERTa,这意味着GPT3更稳健。此外,即使存在分布偏移,良好提示词带来的泛化性能也会继续。示例:图片来自Fu等人。阿尔。2022.即使测试分布与训练分布不同,复杂线索始终优于简单线索。傅等。2022[25]表明输入线索越复杂,模型的性能越好。这种趋势在分布变化的情况下也成立:无论测试分布是否与原始分布不同,来自噪声分布,还是从另一个分布变化而来,复杂线索始终优于简单线索。总结到目前为止,我讨论了只有大型模型才有的三种紧急能力。它们是:复杂推理,其中大型模型在不使用所有训练数据的情况下显着优于以前的小型模型。知识推理,大模型的性能可能不如小模型,但大模型不需要额外的知识来源(知识可能很昂贵,或者难以从非结构化数据中提取)。Out-of-distributionrobustness,这是微调模型时需要解决的问题。在相同分布的情况下,大型模型的性能不如以前的方法,但在非均匀分布的情况下泛化得更好。3.涌现能力颠覆规模法则鉴于以上列举的优势,你可能会开始认为大型语言模型真的很好。在继续深入之前,让我们回顾一下之前的工作,发现一个非常奇怪的问题:GPT-3是在2020年发布的,但为什么我们直到现在才发现并开始思考范式转变?这个问题的答案在于两种类型的曲线:对数线性曲线和相变曲线。如下图:左:比例定律。当模型规模呈指数增长时,相应的模型性能呈线性增长。右:当模型大小达到一定规模时,会出现紧急功能,从而使性能显着提高。最初,(OpenAI)研究人员认为,语言模型的性能与模型大小之间的关系可以通过对数线性曲线来预测,即当模型的大小呈指数增长时,性能将呈线性增长.这种现象被称为语言模型的缩放定律,正如Kaplan等人在[27]GPT3原始论文中所讨论的那样。2020年[26]。重要的是,即使是最大的GPT-3也不能胜过那个阶段带有提示的小型模型微调。所以当时没必要用昂贵的大模型(尽管提示词的标注效率很高)。直到2021年,Cobbe等人。[28]发现缩放定律也适用于微调。这是一个有些悲观的发现,因为它暗示我们可能会被锁定在模型大小上——虽然模型架构优化可能会在一定程度上提高模型性能,但效果仍然会锁定在一个区间内(对应模型大小),它是很难有更重大的突破。在scalinglaws(2020到2021)下,由于GPT-3无法优于微调的T5-11B,而T5-11B微调已经很麻烦,NLP社区更关注研究更小的模型或高效的参数自适应。Prefixtuning[29]是hinting和adaptation交叉的一个例子,后来被He等人统一。[30]2021年。当时的逻辑很简单:如果微调效果更好,我们应该在高效的参数适配上更加努力;如果提示词的方法更好,我们应该投入更多的精力在训练大型语言模型上。然后在2022年1月,思想链上的工作发布了。正如作者所证明的那样,思维线索链在性能尺度曲线中表现出明显的相变。当模型尺寸足够大时,性能会显着提高并明显超过缩放曲线。当用思维链提示时,大型模型在复杂推理上明显优于微调,在知识推理上具有竞争力,并且具有一定的分布式鲁棒性潜力。只需要8个左右的例子就可以达到这个效果,这就是范式可能发生转变的原因(注:这篇文章是在ChatGPT上线前一个月写的;ChatGPT上线后,整个领域都震动了,意识到范式已经转变了).4.范式转变是什么意思?范式转变的真正含义是什么?下面我们给出微调和提示词方法的对比:提示词的好处是显而易见的:我们不再需要繁琐的数据标注和对全量数据进行微调,只需要写提示词就可以得到满意的结果结果,这比Finetuning快多了。另外两点需要注意:情境学习是监督学习吗?坦率地说,我不确定。相似之处在于上下文学习也需要像训练数据这样的例子。不同的是,contextuallearning不像supervisedlearning那样泛化,这使得之前的泛化理论(如RademancherComplexity或NeuralTangentKernel)失效。适用。情境学习真的比监督学习好吗?答案仍然未知。大多数提示词和微调的比较只是比较提示词+大模型vs微调+小模型,但公平的比较应该是提示词+大模型vs微调+大模型,而基比较时的模型应该是一样的。所以在最初的思想链文章中,如果魏等人。想证明提示词比微调好,应该比较微调后的PaLM,而不是GPT3。我的假设是:微调可以提高分布内的性能,但会损害分布外的稳健性。cueword在分布变换的场景表现较好,但在相同分布的场景不如fine-tuning。如果假设成立,那么一个值得研究的问题就是如何在不牺牲其上下文学习能力的情况下进行微调。请注意,分布外微调的影响也随模型大小而变化。例如,在Yang等人的工作中。2022年,第四张表显示,Bart-based的分布外泛化能力会下降,而Bart-large的分布外泛化能力会上升。对于大型模型,当测试集的分布与训练集的分布相差不大时,分布内的微调效果应该也会有所提升。我们再回顾一下上面提到的逻辑:如果fine-tuning更好,就应该努力研究如何高效优化参数;如果提示词更好,我们应该努力训练更好的大规模语言模型。因此,虽然我们相信大型语言模型具有巨大的潜力,但仍然没有确凿的证据表明微调或提示词更好,因此我们不确定范式是否真的应该转变,或者转变到什么程度。仔细比较这两种范式是非常有意义的,这样我们才能对未来有一个清晰的认识。我们将更多讨论留到下一篇文章。5.模型应该有多大?两个号码:62B和175B。模型至少需要62B,这样思维链的效果才能大于标准的提示词法。模型至少需要175B(GPT3的大小)才能使思想链的效果大于微调小模型(T511B)的效果。数字62B来自Chung等人的工作中的第五张表。2022[31]:对于所有小于62B的模型,直接使用提示词比思维链要好。第一个更好的带有思维链的模型是BBH上的Flan-cont-PaLM62B结果。540B模型利用思维链在更多任务上取得了不错的效果,但并不是所有任务都比fine-tuning好。另外,理想尺寸可以小于540B。在Suzgun等人的工作中。在2022[32]中,作者表明175BInstructGPT和175BCodex使用思维链比直接使用提示词更好。结合以上结果,我们得到63B和175B两个数字。因此,如果您想参与其中,请从大于平均尺寸的模型开始。然而,还有其他大型模型在思维链外表现更差,甚至无法学习思维链,例如OPT、BLOOM和第一版GPT-3。它们都测量175B。这就引出了我们的下一个问题。6.尺寸是唯一的因素吗?不。规模是一个必要但不充分的因素。有些模型足够大(比如OPT和BLOOM,都是175B),但是做不了链式思维。有两个模型[33]可以作为思路链:GPT3系列模型,包括text-davinci-002和code-davinci-002(Codex)。这是仅有的两个具有强大的可公开访问的紧急能力的模型。除了以上两个模型,其他GPT3模型,包括原GPT3、text-davinci-001等更小的GPT-3模型,都不能做思维链。我们说“可以做思维链”,意思是用思维链的方法比直接用提示词微调T5-11B效果要好。另请注意,code-davinci-002在语言任务上始终优于[34]text-davinci-002。这个观察非常有趣和耐人寻味。这表明在代码数据上训练的语言模型可以胜过在语言上训练的语言模型。到目前为止我们还不知道为什么。PaLM系列模型,包括PaLM、U-PaLM、Flan-PaLM和Minerva。这些模型目前不开放访问(这里@google,开源)。目前还不清楚为什么会出现涌现能力,但我们已经找出了可能产生涌现能力的因素:指令微调:GPT-3text-davinci-002是指令微调+强化的产物学习[35]。在此之前,text-davinci-001作为思路链的效果并不好。同时,PaLM[36]在指令微调后也提升了[37]的效果。Fine-tuningoncode:Codexcode-davinci-002对代码进行了微调,它始终优于text-davinci-002。PaLM的代码也进行了调整。从表面上看,代码与语言关系不大,但似乎起着很大的作用,我们将在以后的文章中讨论。用思维链进行微调:谷歌发布text-davinci-002时,PaLM已经发布了3个月。所以OpenAI应该看过思维链相关的工作。也有一些工作[38]表明直接用思维链数据进行微调可以激发模型的思维链能力。然而,所有这些因素在现阶段都是猜测。揭示如何训练模型产生涌现能力是非常有意义的,我们将把更多的讨论留到下一篇文章。七。结论结论在本文中,我们仔细研究了语言模型的涌现能力。我们强调复杂推理、知识推理和分布外鲁棒性的重要性和机会。涌现能力非常令人兴奋,因为它们可以超越比例定律并在比例曲线中表现出相变。我们详细讨论了研究范式是否真的会从微调转向情境学习,但我们还没有一个明确的答案,因为微调和情境学习在分布内和分布外场景中的效果有待比较。最后,我们讨论了产生紧急能力的三个潜在因素:指令微调、代码微调和思维链微调。非常欢迎提出建议和讨论。我们还提出了两个尚未讨论的有趣问题:我们能否公平地比较微调和情境学习的效果?我们如何训练大模型,让模型具备涌现能力和思维链?对于这两个问题,我们将在以后的文章中进行讨论。汉英对照表