2020年5月,GPT-3在GPT-2发布一年后正式发布,GPT-2也在2020年5月正式发布原文在GPT论文发表一年后发表。按照这个趋势,GPT-4应该在一年前就发布了,但现在还没有发布。OpenAICEOSamAltman几个月前表示,GPT-4已迫在眉睫,预计将在2022年7-8月发布。GPT-3的强劲表现提升了对GPT-4的预期。虽然关于GPT-4的公开信息很少,但Altman在去年的问答中给出了一些关于OpenAI对GPT-4的思考的暗示。他明确表示GPT-4不会有100T的参数。因为关于GPT-4的公开信息很少,所以关于它的预测很多。现在,一位名叫AlbertoRomero的分析师根据他的OpenAI和SamAltman披露的信息,以及语言AI??的当前趋势和最新技术,对GPT-4做出了新的预测。以下是他的预言原文。模型尺寸:GPT-4不会很大GPT-4不会是最大的语言模型,Altman说过不会比GPT-3大很多。它的大小大概在GPT-3和Gopher之间(175B-280B)。这种猜测是有充分理由的。英伟达和微软去年联合打造的Megatron-TuringNLG(MT-NLG)号称是最大的密集神经网络,拥有530B个参数,参数数量是GPT-3的3倍。最近谷歌的PaLM有540B参数。但值得注意的是,在MT-NLG之后出现的一些更小的模型反而取得了更高的性能水平。这意味着:越大不一定越好。业内很多公司已经意识到,模型大小并不是性能的决定因素,扩展模型也不是提升性能的最佳方式。2020年,OpenAI的JaredKaplan及其同事得出结论,当计算预算的增加主要用于根据幂律关系缩放的参数大小时,性能提升最大。但是,以超大规模MT-NLG为例,在性能上并不是最好的。事实上,它甚至不是任何单一类别基准测试中最好的。Gopher(280B)或Chinchilla(70B)等较小的模型在某些任务上的表现比MT-NLG好得多。显然,模型大小并不是实现更好的语言理解性能的唯一因素。该行业的几家公司开始放弃“越大越好”的教条。拥有更多的参数也会带来一些副作用,例如高计算成本和性能瓶颈。当这些公司可以从较小的模型中获得类似或更好的结果时,他们在构建大型模型之前会三思而后行。Altman说,他们没有专注于让模型变大,而是充分利用较小的模型。OpenAI是缩放假说的早期支持者,但现在认识到其他未探索的改进模型的途径。因此,GPT-4不会比GPT-3大很多。OpenAI将把重点转移到其他方面,例如数据、算法、参数化和值对齐等,这可能会带来更显着的改进。关于100T参数化机型的能力,我们只能拭目以待。优化语言模型受到优化的一个关键限制,即训练非常昂贵。以至于研发团队不得不在准确性和成本之间做出权衡。这通常会导致模型显着优化不足。GPT-3只训练了一次,并且在某些用例中出现问题时必须重新训练。OpenAI决定不对GPT-4采用这种方法,因为研究人员为模型找到最佳超参数集(例如学习率、批量大小、序列长度等)的成本太高。高训练成本的另一个后果是对模型行为的分析是有限的。当Kaplan的团队得出模型大小是提高性能最相关的变量时,他们没有考虑需要大量计算资源的训练令牌的数量。诚然,正如Kaplan的团队总结的那样,一些大公司在扩展模型上“浪费”了数百万美元。现在,以DeepMind和OpenAI为首的公司正在探索其他方法。他们试图找到最好的模型,而不仅仅是更大的模型。优化参数上个月,微软和OpenAI证明了GPT-3在使用优化的超参数进行训练时可以取得很大的改进。他们发现6.7B版本的GPT-3的性能有了实质性的提升,与原来的13BGPT-3相当。超参数调优带来的性能提升相当于参数数量翻倍。他们利用一种称为μP的新型参数化,其中小型模型的最佳超参数对于同一系列的较大模型也是最佳的。因此,μP可以以一小部分训练成本优化任何规模的模型,并几乎无需成本将超参数转移到更大的模型。优化计算模型几周前,DeepMind重新审视了Kaplan等人的发现。并意识到,与人们所相信的相反,训练令牌的数量对性能的影响与模型的大小一样大。DeepMind得出结论,计算预算应该在缩放参数和数据之间平均分配。他们通过用4倍于大型语言模型的数据量(1.4Ttoken)训练Chinchilla(70B)证明了这一假设。来源:DeepMind结果一目了然,Chinchilla在多项语言基准测试中“显着”优于Gopher、GPT-3、MT-NLG等语言模型,这说明当前大模型训练不足,规模过大。根据DeepMind的研究结果,GPT-4将比GPT-3略大,实现计算优化所需的训练代币数量约为5万亿,比当前数据集高出一个数量级。为了尽量减少训练损失,训练GPT-4所需的FLOPs将是GPT-3的10-20倍左右(参考Gopher的计算量)。Altman在问答中表示,GPT-4的计算量将比GPT-3更高,他可能指的是GPT-3。可以肯定的是,OpenAI将致力于优化模型大小以外的变量。找到最佳超参数集以及最佳计算模型大小和参数数量可以使您的模型在所有基准测试中获得令人难以置信的提升。多模态:GPT-4将是一个纯文本模型人脑是多感官的,因为我们生活在一个多模态的世界中。一次仅以一种方式感知世界极大地限制了AI理解世界的能力。因此,人们相信深度学习的未来是多模态模型。然而,好的多模态模型比好的纯语言或纯视觉模型更难构建。将视觉和文本信息组合成一个表示是一项非常困难的任务。我们对大脑如何做到这一点的理解太有限,无法在神经网络中实现它。可能也是因为这个原因,Altman在Q&A中也表示GPT-4不会是多模态的,而是纯文本模型。我的猜测是,在转向下一代多模态AI之前,他们正试图通过调整模型和数据集大小等方式来突破语言模型的极限。稀疏性:GPT-4将是一个密集模型。稀疏模型利用条件计算,使用模型的不同部分来处理不同类型的输入,最近取得了巨大成功。这些模型可以轻松扩展到超过1T的参数标记,而不会产生过多的计算成本,从而在模型大小和计算预算之间建立正交关系。然而,这种MoE方法的优势在非常大的模型上会减弱。鉴于OpenAI一直专注于密集语言模型,有理由期待GPT-4也将是一个密集模型。然而,人脑严重依赖稀疏处理,而稀疏性与多模态一样,很可能主导未来几代神经网络。GPT-4会比GPT-3更对齐OpenAI在解决AI价值对齐的问题上付出了很多努力:如何让语言模型遵循我们的意图,服从我们的价值观。这不仅需要在数学上让AI实现更准确的理解,还需要在哲学上考虑不同人类群体之间的价值观。OpenAI已经尝试在InstructGPT上进行训练,并通过人类反馈来学习遵循指令。InstructGPT的主要突破在于,无论其在语言基准测试中的结果如何,它始终被人类评估员评为比GPT-3更好的模型。这表明将基准测试作为评估AI能力的唯一指标是不合适的。人类如何看待模型同样重要,甚至更重要。鉴于Altman和OpenAI对有益AGI的承诺,我相信GPT-4将建立在他们从InstructGPT的发现之上。他们将改进模型对齐的方式,因为GPT-3仅使用英文语料库和注释。真正的对齐应该包含来自不同性别、种族、民族、宗教等的信息特征。这是一个巨大的挑战,朝着这个目标迈出一步将意义重大。综上所述,我对GPT-4的预测大致包括以下几个方面:模型尺寸:GPT-4会比GPT-3大,但不会很大。模型大小不会是它的显着特征;优化:GPT-4将使用比GPT-3更多的计算量,它会在参数化(最优超参数)和缩放法则(训练令牌的数量与模型大小一样重要)方面有新的改进;多模态:GPT-4将是纯文本模型,OpenAI试图最大化语言模型,然后转化为像DALLE这样的多模态模型;sparsity:GPT-4跟随GPT-2和GPT-3的趋势,会是dense模型,但未来稀疏性会占主导地位;Alignment:GPT-4会比GPT-3更符合人们的价值要求,它会应用借鉴InstructGPT的经验。AlbertoRomero根据Altman和OpenAI给出的信息做出了有根据的猜测,我们期待在几个月后即将推出的GPT-4中证实这些预测。
