当前位置: 首页 > 科技观察

30亿跑赢了GPT-3的1750亿,谷歌的新模式引来热议,却搞错了Hinton的年龄

时间:2023-03-13 07:20:36 科技观察

人工智能的一个重要目标是开发具有强泛化能力的模型。在自然语言处理(NLP)领域,预训练语言模型在这方面取得了重大进展。这些模型通常经过微调以适应新任务。最近,来自谷歌的研究人员分析了多种指令微调方法,包括扩展对指令微调的影响。实验表明,指令微调确实可以根据任务数量和模型大小实现良好的可扩展性,最大5400亿参数的模型可以明显受益。未来的研究应该进一步扩大任务的数量和模型的规模。此外,该研究还分析了微调对模型执行推理能力的影响,结果令人着迷。由此产生的Flan-T5对超过1800种语言任务进行了指令微调,显着提升了提示和多步推理能力,跑30亿参数的benchmark可以超过GPT-3的1750亿参数。谷歌似乎找到了提升大模型能力的方向。然而,这项研究不仅引起了机器学习界的欢迎,同时也引起了GaryMarcus的抱怨:谷歌的模型为什么把谷歌自己的著名科学家GeoffreyHinton的出生日期弄错了?分明是个1947年出生的老人,论文作者之一、谷歌大脑首席科学家QuocLe急忙出面抹黑:是临时工把图弄错了。在论文中,Flan-T5模型实际上并没有弄错Geoff的出生日期,如图所示。顺便说一句,1963年出生的著名AI学者是JürgenSchmidhuber。既然不是AI模型出了问题,那么让我们看看谷歌的新方法可以为预训练模型做些什么。论文:ScalingInstruction-FinetunedLanguageModels论文地址:https://arxiv.org/abs/2210.11416公开模型:https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints本研究使用540B参数模型训练Flan-PaLM,将微调任务数量增加到1800多个,并包含思维链(CoT;Weietal.,2022b)数据。经过训练的Flan-PaLM优于PaLM,在多个基准测试中达到了最新的水平。在推理能力方面,Flan-PaLM可以利用CoT和自洽性(self-consistency;Wangetal.,2022c)在大规模多任务语言理解(MMLU;Hendrycksetal.,2020)率。此外,Flan-PaLM在一组具有挑战性的开放式生成问题上明显优于PaLM,可用性大幅提高。总的来说,谷歌的这项研究揭示了使用指令微调来提高模型性能的具体方法。方法论具体而言,本研究重点关注影响指令微调的几个方面,包括:(1)缩放任务数量,(2)缩放模型大小,以及(3)思维链数据微调。研究发现,针对上述方面的指令微调显着改善了各种模型类别(PaLM、T5、U-PaLM)、提示设置(zero-shot、few-shot、CoT)和评估基准(MMLU、BBH、TyDiQA、MGSM,开放公式生成)。例如,在1.8K任务上进行指令微调的Flan-PaLM540B的性能大大优于PALM540B(平均+9.4%)。Flan-PaLM540B在多个基准测试中实现了最先进的性能,例如在五个MMLU上达到75.2%。我们还公开了Flan-T5检查点,即使与PaLM62B等更大的模型相比,它也能实现强大的少镜头性能。总的来说,指令微调是提高预训练语言模型性能和可用性的通用方法。图1.研究人员在1,800多个任务上微调了各种语言模型,有/没有样本(零样本和少量样本)以及有/没有思维链,从而能够在场景中进行泛化。图2.微调数据包括473个数据集、146个任务类别和总共1836个任务。在完成数据微调和程序微调过程后,研究人员比较了根据模型大小进行缩放对任务性能的影响。首先,对于所有三种模型大小,多任务指令微调显示出比没有微调有很大的性能改进,增益范围从9.4%到15.5%。其次,增加微调任务的数量可以提高性能。最后,我们可以看到将模型大小增加一个数量级(8B→62B或62B→540B)可以显着提高微调和未调优模型的性能。多任务指令微调对准确率的影响与模型大小(参数量)和微调任务数量及规模扩展有关。增加微调数据中的任务数量可以提高Flan-PaLM在大多数评估基准上的性能。研究人员证明,在微调组合中包含九个用思维链(CoT)注释的数据集可以提高推理性能。下表显示Flan-PaLM的CoTcueing能力在四个保留的评估基准上优于PaLM。研究发现,指令微调对CoT数据的另一个好处是可以实现零样本推理。模型自己产生推理能力,没有少量的CoT样本,这可能需要大量的工程调整。正确实施。图6:PaLM和Flan-PaLM在一组23个具有挑战性的BIG-Bench任务(BBH)上的零样本性能。Flan-PaLM需要由“让我们一步步思考”指令激活的思维链(CoT)生成。为了证明新方法的通用性,谷歌训练了T5、PaLM和U-PaLM,涵盖了从8000万到5400亿个参数的模型大小范围,并发现所有模型都显着提高了性能。表5.指令微调(Flan)比其他连续预训练方法提高了性能。经测试,指令微调大大提升了所有模型类型的归一化平均性能,T5模型相比非微调模型从指令微调中获益最多。这些结果对于某些基准测试来说非常强大——例如,Flan-T5-XL仅使用30亿个参数就获得了47.6%的MMLU分数,超过了使用1750亿个参数的GPT-343.9%的分数。除了NLP基准之外,语言模型还能够为开放式问题请求生成长格式答案。在这方面,标准的NLP基准和用于评估它们的自动化指标不足以衡量人类偏好。研究人员对此进行了评估,创建了一个包含190个示例的评估集。评估集包括以零样本方式向模型提出的问题,涉及五个具有挑战性的类别,每个类别有20个问题:创造力、情境推理、复杂推理、计划和解释。对于这些示例中的60个(来自复杂的推理、计划和解释类别),该研究创建了一个带有思维链触发短语的变体(例如,“让我们逐步思考”)作为是否正确的另一个指标调整发生。一项评估可以在CoT上实现零射击。除了上述160个零样本输入外,研究中还包括30个输入以测试少样本功能,其中没有指令微调的强语言模型已被证明表现良好。研究人员认为,指令微调和规模扩展都可以持续提升大型语言模型的性能,而微调对推理能力至关重要,推理能力也可以泛化模型能力。通过将指令微调与其他模型自适应技术(如UL2R)相结合,谷歌提出了这项工作中最强的模型Flan-U-PaLM。重要的是,指令微调不会像模型缩放那样增加计算成本,例如对于PaLM540B,指令微调仅需要0.2%的预训练计算,但将评估基准的归一化平均值提高了9.4%。使用说明进行微调的小型模型有时可以胜过未经微调的大型模型。出于这些原因,研究人员建议对几乎所有预训练语言模型进行指令微调。