当前位置: 首页 > 科技观察

模型越大,性能越差?谷歌收集了削弱大型模型的任务,还建立了一个新的基准

时间:2023-03-21 14:04:51 科技观察

随着语言模型越来越大(参数数量,使用的计算量和数据集大小都变大),它们的性能似乎是原来的更好,这是称为自然语言的标度法则。这已被证明适用于许多任务。也许,还有一些任务随着模型大小的增加而变得更糟。此类任务称为InverseScaling,它们可以指示训练数据或优化目标是否存在某种缺陷。今年,纽约大学的几位研究人员组织了一场不同类型的竞赛:寻找大型模型不擅长的一些任务。在这些任务上,语言模型越大,性能越差。为了鼓励参与识别逆向缩放任务,他们设立了逆向缩放奖,获胜者将从250,000美元的奖池中奖励提交的任务。颁发该奖项的专家根据一系列标准评估提交的内容:标准包括反向缩放的强度、任务重要性、新颖性、任务覆盖范围、可重复性和反向缩放的普遍性。比赛分为两轮,第一轮将于2022年8月27日结束,第二轮将于2022年10月27日结束。两轮第一轮共收到43份参赛作品,其中4份作品获得三等奖,将于被包含在最终的反向缩放基准中。几位谷歌研究人员在一篇论文中总结了相关研究成果:论文链接:https://arxiv.org/pdf/2211.02011.pdf将这四个任务的InverseScaling应用于三个语言模型,模型的参数跨度三个数量级:Gopher(42M–280B)、Chinchilla(400M–70B)和Anthropic内部模型(13M–52B)。获得反向缩放奖励的任务是NegationQA、HindsightNeglect、QuoteRepetition和RedefineMath。相关任务的示例如图1所示。在论文中,作者对这四个任务的缩放性能进行了详细研究。作者首先在PaLM-540B模型上进行评估,该模型的计算成本是InverseScalingAward提交中评估的模型的5倍。通过与PaLM-540B对比,作者发现4个任务中有3个表现出一种称为U形缩放的特征:性能首先随着模型尺寸的增加而下降到一定程度,然后随着模型的增大,性能再次下降。上升。作者认为,当任务同时包含“真实任务”和“干扰任务”时,会出现U形缩放。中型模型可能会执行“干扰任务”,从而影响性能,而较大的模型可能会忽略“干扰任务”并能够执行“真正的任务”。作者在U尺度上的发现与BIG-Bench任务(例如TruthfulQA、识别数学定理)的结果一致。U形缩放的含义是InverseScaling曲线可能不适合较大的模型,因为性能可能会继续下降,也可能会开始上升。接下来,作者探讨了思维链(CoT)提示是否会改变这些任务的规模。与没有CoT的提示相比,带有CoT的提示会激励模型将任务分解为多个中间步骤。作者的实验表明,使用CoT使得三个U形缩放任务中的两个成为PositiveScaling曲线,其余任务从InverseScaling变为PositiveScaling。当使用CoT提示时,大型模型甚至在RedefineMath中的两个任务和八个子任务中的七个上达到了100%的准确率。事实证明,“InverseScaling”这个词其实是有歧义的,因为对于一个提示,一个给定的任务可能是InverseScaling,但是对于一个不同的提示,它可能是PositiveScaling或者U型缩放。U-shapedscaling这部分作者使用原论文中提出的8B、62B和540BPalm模型来评估Palm模型在四个InverseScaling奖励任务上的表现,包括40Btoken训练的1B模型(其计算量约为0.2zettaFLOP)。单个Palm-540B的参数大约是InverseScalingAward中评估的最大模型(Gopher-280B)的两倍,并且计算大约2.5KzettaFLOPs,而Chinchilla-70B仅为560zettaFLOPs。除了沿用InverseScalingaward的默认设置外,作者还做了一些小的修改,比如使用free-formgeneration(后面是精确的字符串匹配,而不是rank分类),比较了两个Promptprobabilityofapossiblecontinuation.同时,作者对提示进行了小的修改以适应自由形式生成,即所有提示至少一次,并在输入提示中提供答案选项,提示使模型输出“答案是”。具体形式如图1所示。作者认为这是合理的,因为这种形式与最近关于提示的工作一致,之前评估的模型和PaLM8B/62B之间的经验表现相似(作者在本文中使用的所有提示都是可用。)图2显示了Palm、Anthropic、Gopher和Chinchilla在四个任务上的结果:在NegationQA任务上,Palm-62B的准确率与Palm-8B模型相比下降明显,而Palm-540B模型的准确率它又有所改善;在HindsightNeglect任务上,Palm-8B和Palm-62B的准确率下降到远低于随机数的水平,但Palm-540B的准确率达到了100%;在引用重复任务中,准确度从Palm-8B的86%下降到Palm-62B的81%,但Palm-540B的准确度为100%。事实上,Gopher和Chinchilla模型在QuoteRepetition任务中显示出U形缩放的迹象。这四项任务中的例外是重新定义数学,因为即使是Palm-540B也没有显示任何U-zoom的迹象。因此,对于当今存在的大型模型,任务是否会变成U缩放尚不清楚。还是真的会逆比例缩放?关于U-scaling的一个问题是:为什么性能先下降后上升?作者给出了一个推测性的假设:即每个InverseScalingaward中的任务都可以分解为两个任务(1)“真实任务”和(2)影响表现的“干扰任务”。由于小模型无法完成这两项任务,它们只能达到接近随机精度的性能。中等模型可能会执行“干扰任务”,这会导致性能下降。大型模型可以忽略“干扰任务”并执行“真实任务”以提高性能并可能解决任务。图5显示了一个潜在的“干扰任务”。虽然可以只在“干扰任务”上测试模型的性能,但这是一个不完美的消融实验,因为“干扰任务”和“真实任务”不仅可能相互竞争,而且可能有一个性能的共同影响。接下来,作者进一步解释了为什么会出现U型缩放,以及未来需要做的工作。CoT提示对反向缩放的影响接下来,作者探讨了使用不同类型的提示时,反向缩放奖励的4个任务的缩放如何变化。虽然InverseScalingaward的发起者使用了在指令中包含few-shot指令的基本提示策略,但思维链(CoT)激励模型在给出最终答案之前输出中间步骤,可用于multi-shot步骤推理任务显着提高了性能。也就是说,没有CoT的提示是模型能力的下限。对于某些任务,CoT提示可以更好地表示模型的最佳性能。图3的上半部分是CoT提示的示例,下半部分是NegationQA、HindsightNeglect和QuoteRepetitionwithCoT提示的表现。对于NegationQA和HindsightNeglect,CoT提示将缩放曲线从U形更改为正。对于QuoteRepetition,虽然Palm-8B和Palm-62B的表现明显更好,但Palm-540B达到了100%的准确率,CoT的提示仍然呈现U型曲线。图4显示了使用CoT提示重新定义数学的结果。该任务实际上由8个子任务组成,每个子任务都有不同的指令,因此作者还将性能按子任务拆分,以探索子任务是否具有相同的缩放行为。总之,CoT提示显示所有子任务的正缩放,在Palm-62B和Palm-540B模型上8个子任务中的7个达到100%的准确率。但对于“+作为数字”和“+作为随机数”子任务,即使使用Palm-540B,也表现出明显的InverseScaling曲线。总之,所有研究的任务和子任务在使用CoT提示时都表现出U形缩放或正缩放。这并不意味着no-CoT的提示结果无效,而是它通过强调任务的比例曲线如何根据所使用的提示类型而有所不同来提供额外的细微差别。也就是说,同一个任务可以对一种类型的提示有逆比例曲线,对另一种类型的提示有U形比例或正比例曲线。因此,术语“逆缩放任务”没有明确定义。