当前位置: 首页 > 科技观察

有人预测GPT-4会是这个样子:比GPT-3略大,纯文本,更专注于优化计算和对齐

时间:2023-03-20 20:27:16 科技观察

不久前,谷歌发布了基于他们最新一代的5400亿参数大模型人工智能架构的Pathways——PaLM,具有标注因果关系、上下文理解、推理、代码生成等诸多功能,其常识推理能力甚至比之前的语言模型有了很大的提升。但与此同时,大家也一如既往地注意到了PaLM的计算成本:使用了6144个TPU。如果租用显卡进行训练,最高成本可能达到1700万美元(1亿多人民币,“一个小目标”)。显然,这是一种浪费,不符合“经济上可用”的原则。难怪业内人士时常吐槽:大模型吃亏已经很久了。如果模型做大了,一直砸钱,什么时候结束?也有学者向AI科技评论表示:像PaLM这样的大模型在结果上确实取得了不错的突破,但是训练和计算的成本非常高,没必要把很多任务组合在一起。对于未来大模型的发展,GPT系列或许可以提供一些新的见解。近日,CambrianAI分析师AlbertoRomero发表文章,根据OpenAICEOSamAltman几个月前的言论,推测GPT-4将于今年7-8月发布,并根据Altman去年的表态A问答,预测GPT-4的特性。可以肯定的是,Altman表示,GPT-4的参数不会达到100T。AlbertoRomero也猜测,或许GPT-4的规模会比GPT-3略大,但“大”不会像GPT-3一样成为GPT-4的“卖点”。相反,OpenAI更专注于如何让更小的模型表现更好。1预测一:GPT-4不会太大首先,Alberto判断GPT-4不会是最大的语言模型。Altman还表示它不会比GPT-3大很多。与前几代神经网络相比,GPT-4肯定会很大,但size不会是它的显着特征。GPT-4可能介于GPT-3和Gopher(175B-280B)之间。接着,Alberto给出了他预测的理由:Nvidia和微软去年开发的Megatron-TuringNLG有530B个参数,一直是最大的密集神经网络——它的大小是GPT-3的3倍——直到最近谷歌的PaLM大小为540B。但值得注意的是,MT-NLG之后的一些更小的模型达到了更高的性能水平。也就是说,更大≠更好。小模型的存在有两个目的。一是公司已经意识到增加模型的大小并不是提高性能的唯一或最佳方法。2020年,OpenAI的JaredKaplan及其同事得出结论,当增加的计算预算主要分配给增加参数数量并遵循幂律关系时,性能提升最为显着。谷歌、英伟达、微软、OpenAI、DeepMind和其他开发语言模型的公司都从表面上接受了这一指导原则。论文地址:https://arxiv.org/pdf/2001.08361.pdf虽然MT-NLG在规模上很大,但在性能上并不是最好的。事实上,它并不是任何单一类别基准中存在的最好的。Gopher(280B)或Chinchilla(70B)等较小的模型——即使是其中的一小部分——在任务上的表现也比MT-NLG好得多。第二个含义是公司开始拒绝“越大越好”的教条。虽然添加参数很容易,但拥有更多参数只是可以提高性能的众多因素之一,附带损害(例如碳足迹、计算成本或进入死胡同)使其成为最糟糕的因素之一。当公司可以从较小的模型中获得类似或更好的结果时,他们在构建大型模型之前会三思而后行。Altman说,他们没有专注于制作非常大的模型,而是致力于充分利用较小的模型。OpenAI的研究人员是缩放假说的早期支持者,但现在他们可能意识到其他未开发的改进模型的途径。相较于让GPT-4做大,Alberto更倾向于认为OpenAI会把重心转移到其他方面——比如数据、算法、参数化或对齐——能更显着改进模型的因素。2预测2:GPT-4试图寻找“最优”语言模型遇到优化问题的关键。培训非常昂贵,以至于公司不得不在准确性和成本之间做出权衡。而这种选择通常会导致模型明显未优化。GPT-3只训练了一次,仍然存在一些错误,在某些情况下可能导致重新训练。OpenAI决定不进行优化,因为它成本太高且负担不起,这使得研究人员无法为模型找到最佳的一组超参数(如学习率、批量大小、序列长度等)。高训练成本的另一个后果是对模型行为的分析是有限的。当Kaplan的团队得出结论,模型大小是提高性能最相关的变量时,他们没有考虑训练令牌的数量,即输入模型的数据量。这样做需要大量的计算资源。科技公司遵循卡普兰的结论,因为这是他们所知道的最好的想法。具有讽刺意味的是,正是经济限制导致谷歌、微软、Facebook和其他公司“浪费”数百万美元用于更大的模型,并在此过程中造成大量污染。现在,以DeepMind和OpenAI为首的公司正在探索其他方法。他们试图找到最佳模型,而不仅仅是更大的模型。最佳参数化上个月,微软和OpenAI证明,如果使用最佳超参数训练模型,GPT-3可以得到进一步改进。他们发现GPT-3版本6.7B的性能有了很大提升,与GPT-3的原始版本13B相当。超参数调整(这对于较大的模型不可行)带来的性能提升相当于参数数量加倍。他们发现了一种新的参数化(μP),其中小型模型的最佳超参数同样适用于类似的大型模型。μP使他们能够以一小部分训练成本优化任意大小的模型。然后可以以很小的成本将这些超参数转移到更大的模型。最佳计算模型几周前,DeepMind重新审视了Kaplan的发现,并意识到训练令牌的数量对性能的影响与模型大小一样大,这与普遍的看法相反。他们得出的结论是,随着可用的计算预算越来越多,它应该在可扩展的参数和数据之间平均分配。他们通过训练Chinchilla来证明他们的假设,Chinchilla是一个70B模型(SOTA,比Gopher小4倍),其数据来自语言模型的4倍大。结果很清楚。在许多语言基准测试中,Chinchilla“始终且显着”优于Gopher、GPT-3、MT-NLG和所有其他语言模型,而当前模型存在规模过大和训练不足的问题。考虑到GPT-4会比GPT-3略大,根据DeepMind的研究结果,GPT-4实现计算优化所需的训练代币数量约为5万亿,比当前数据集高出一个数量级。他们训练模型以达到最小训练损失所需的失败次数将是他们使用GPT-3(改为使用Gopher的计算预算)时的10-20倍。当Altman在问答中说GPT-4将使用比GPT-3更多的计算时,他可能指的是这一点。OpenAI肯定会研究GPT-4的优化——尽管由于他们的预算未知,无法预测到什么程度。可以肯定的是,OpenAI将专注于优化模型大小之外的其他变量。找到最佳超参数集、最佳计算模型大小和参数数量可以在所有基准测试中带来令人难以置信的改进。如果将这些方法组合成一个模型,这个模型会达到所有预测都无法想象的高度。Altman还说,如果你不把模型做大,人们不会相信模型能有多好。他可能指的是增加模型尺寸的工作目前已经结束。3预测3:GPT-4将是纯文本模型深度学习的未来是多模态模型。人脑具有多种感官,这是因为我们生活在一个多模态的世界中。一次只以一种模式感知世界,极大地限制了人工智能处理或理解世界的能力。然而,好的多模态模型比好的纯语言或纯视觉模型要难得多。将视觉和文本信息组合成一个表示是一项具有挑战性的任务。我们对大脑如何做到这一点的理解非常有限(并不是说深度学习社区考虑了对大脑结构和功能的认知科学见解),所以我们不知道如何在神经网络中实现它。Altman在问答中表示,GPT-4不会是多模态的(像DALL·E或LaMDA),而是纯文本模型。因此,Alberto的猜测是,在转向下一代多模式AI之前,他们会尝试通过调整模型和数据集大小等因素来突破语言模型的极限。4预测4:GPT-4将是一个密集模型和一个利用条件计算的稀疏模型,使用模型的不同部分来处理不同类型的输入。最近取得巨大成功的稀疏模型可以轻松扩展到1T参数标记之外,而不会产生高昂的计算成本,从而在模型大小和计算预算之间形成看似正交的关系。然而,MoE方法的好处在非常大的模型上并不那么大。考虑到OpenAI专注于稠密语言模型的历史,Alberto认为GPT-4大概率也会是稠密模型。因为Altman说GPT-4不会比GPT-3大很多,所以我们可以得出结论,稀疏性不是OpenAI的选择——至少目前是这样。鉴于人工智能(人脑)的灵感在很大程度上依赖于稀疏处理。与多模态一样,稀疏性可能会主导未来几代神经网络。5预测5:GPT-4将比GPT-3更好地对齐OpenAI在解决AI对齐问题上付出了很多努力:如何让语言模型遵循我们的意图并坚持我们的价值观——不管那意味着什么.这不仅是一个数学问题(例如,我们如何让AI准确理解我们想要什么?),也是一个哲学问题(例如,没有通用的方法让人工智能与人类对齐,因为人类价值观在不同群体之间的差异是巨大的,而且往往是相互冲突的)。他们首次尝试使用InstructGPT,这是一种新的GPT-3,可以通过人类反馈学习遵循指令(无论指令是善意的还是恶意的,都没有纳入模型)。InstructGPT的主要突破在于,无论其在语言基准测试中的结果如何,它都被人类审阅者认为是一个更好的模型(这些审阅者是同质的OpenAI工作人员和英语使用者,因此我们应该谨慎得出结论)。这强调了需要克服将基准作为评估AI能力的唯一指标的需要。人类如何看待这些模型可能同样重要,甚至更重要。鉴于Altman和OpenAI致力于成为有益的AGI,我相信GPT-4将实施并基于他们在InstructGPT中的发现。我认为他们会改进对齐模型的方式,因为目前该模型的标签仅限于OpenAI员工和说英语的人。而真正的结盟应该包括所有性别、种族、民族、宗教等群体。这是一个巨大的挑战,任何朝着这个目标迈出的一步都会受到群众的欢迎。6总结模型大小:GPT-4将大于GPT-3,但与当前最大的模型(MT-NLG530B和PaLM540B)相比不是很大。模型大小将不是一个显着特征。最优性:GPT-4将使用比GPT-3更多的计算。GPT-4将使对参数化(最佳超参数)和缩放法则(训练令牌的数量与模型大小同样重要)的新优化洞察成为可能。多模态:GPT-4将是纯文本模型,而不是多模态模型。OpenAI希望在完全转向DALLE等多模态模型之前充分利用语言模型。稀疏性:遵循GPT-2和GPT-3的趋势,GPT-4将是一个密集模型(所有参数将用于处理任何给定的输入)。在未来,稀缺性将变得更加重要。对齐:GPT-4将比GPT-3更对齐,并且它将从InstructGPT中学习,后者是根据人类反馈进行训练的。人工智能对齐还有很长的路要走,我们应该仔细评估正在完成的工作,而不是大肆宣传。你怎么认为?