当前位置: 首页 > 科技观察

参数略有提升,性能指标爆表!谷歌:大型语言模型隐藏“神秘技能”

时间:2023-03-18 20:15:55 科技观察

因为可以做没有经过训练的事情,大型语言模型似乎具有某种神奇的力量,从而成为媒体和研究人员炒作和关注的焦点。在扩展大型语言模型时,偶尔会出现较小模型中没有的新功能。这种类似“创造力”的特性被称为“涌现”能力,它代表了向通用人工智能迈出的一大步。现在,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员正在探索大型语言模型中的“涌现”能力。解码器提示DALL-E神奇的“紧急”功能自然语言处理(NLP)已经通过在大量文本数据上训练的语言模型发生了革命性变化。扩大语言模型通常会提高一系列下游NLP任务的性能和样本效率。在许多情况下,我们可以通过推断较小模型的性能趋势来预测大型语言模型的性能。例如,规模对语言模型困惑度的影响已被验证跨越七个数量级。然而,其他一些任务的性能并没有以可预测的方式提高。例如,GPT-3论文表明,语言模型执行多位数加法的能力对于从100M到13B参数的模型具有平坦的缩放曲线,近似随机,但在一个节点处导致性能跳跃。鉴于在NLP研究中越来越多地使用语言模型,更好地理解这些可能意外出现的功能非常重要。在最近发表于机器学习研究(TMLR)的论文“大型语言模型的紧急性”中,研究人员展示了数十个由扩大语言模型产生的“紧急”力量的例子。这种“新兴”能力的存在引发了一个问题,即额外的缩放是否可以进一步扩展语言模型的能力范围。某些提示和微调方法仅在较大模型中产生改进。“紧急”提示任务首先,我们讨论提示任务中可能出现的“紧急”能力。在这类任务中,预训练的语言模型被提示执行下一个单词预测的任务,并通过完成响应来执行任务。在没有任何进一步微调的情况下,语言模型通常可以执行在训练期间看不到的任务。当任务在特定大小阈值下从随机性能不可预测地飙升至高于随机性能时,我们将任务称为“紧急”任务。下面我们展示三个具有“紧急”表现的提示任务示例:多步算术、参加大学水平的考试以及识别单词的预期含义。在每种情况下,语言模型都表现不佳,对模型大小的依赖性很小,直到达到某个阈值——此时它们的性能飙升。对于足够大的模型,这些任务的性能只会变得非随机——例如,算术和多任务NLU任务的训练超过10FLOPs,上下文任务中单词的训练FLOP超过10的24次方。“新兴”提示策略第二类“新兴”功能包括增强语言模型功能的提示策略。提示策略是一种广泛的提示范例,可以应用于一系列不同的任务。当它们对小模型失败并且只能被足够大的模型使用时,它们被认为是“紧急的”。思维链提示是“紧急”提示策略的典型示例,其中提示模型在给出最终答案之前生成一系列中间步骤。思维链提示使语言模型能够执行需要复杂推理的任务,例如多步数学单词问题。值得一提的是,该模型无需显式训练即可获得思维链推理的能力。下图是一个思维链提示的例子。思维提示链的实证结果如下图所示。对于较小的模型,应用思维链提示并不优于标准提示,例如当应用于GSM8K时,这是一个具有挑战性的数学单词问题基准。然而,对于大型模型,MindLinkTips在GSM8K上实现了57%的分辨率,这在我们的测试中显着提高了性能。研究“涌现”能力的意义那么研究“涌现”能力的意义何在?识别大型语言模型中的“新兴”功能是了解此类现象及其对未来模型功能的潜在影响的第一步。例如,研究人员可能不知道当前语言模型的全部小样本提示功能,因为“紧急”小样本提示功能和策略未在预训练中明确编码。同样重要的是进一步扩展是否可能赋予更大的模型“紧急”能力的问题。为什么会出现“应急”能力?当某些功能出现时,是否会解锁语言模型在现实世界中的新应用?由于计算资源很昂贵,是否可以通过其他方式(例如更好的模型架构或培训技术)在不增加可扩展性的情况下解锁新兴功能?研究人员说,这些问题是未知的。然而,随着NLP领域的不断发展,分析和理解语言模型的行为非常重要,包括由于缩放而“出现”的能力。