当前位置: 首页 > 科技观察

语言模型参数越多越好?DeepMind用700亿打败了自己的2800亿,训练优化了“小”模型

时间:2023-03-21 19:15:43 科技观察

最近,一系列大语言模型(LLM)层出不穷,最大的语言模型已经有超过5000亿的参数。这些大型自回归变压器通过使用各种评估协议(例如零样本、少样本和微调)在许多任务中展示了令人印象深刻的性能。然而,训练大型语言模型需要巨大的计算和能量消耗,并且这种消耗随着模型数量的增加而增加。在实践中,研究人员分配的训练计算预算通常是事先已知的:有多少加速器可用以及我们希望使用它们多长时间。通常只训练这些大型模型一次是可以接受的,因此准确估计给定计算预算的最佳模型超参数至关重要。卡普兰等人。(2020)表明自回归语言模型(LM)中的参数数量与其性能之间存在幂律关系。结果是该领域一直在训练越来越大的模型,期望性能会提高。卡普兰等人的一个值得注意的结论。(2020)是大型模型不应该为了获得计算优化而训练到尽可能低的损失。DeepMind的研究人员得出了相同的结论,但他们估计大型模型可以使用比作者推荐的更多的令牌进行训练。具体来说,假设计算预算增加10倍,其他研究人员建议模型的大小应增加5.5倍,而训练令牌的数量应仅增加1.8倍。相反,DeepMind发现模型大小和训练令牌的数量应该按相等的比例缩放。论文地址:https://arxiv.org/pdf/2203.15556.pdf继Kaplanetal.而GPT-3的trainingsettingresearch,最近大规模的模型训练token大约是3000亿(表1),相当于在增加计算力的情况下使用,主要结论与增加模型尺寸是一致的。在这项工作中,DeepMind重新审视了这个问题:给定固定的FLOPs预算,模型大小和训练令牌数量之间的权衡应该如何?为了回答这个问题,DeepMind取了最后的预训练损失