当前位置: 首页 > 科技观察

归一化改进了预训练并减轻了梯度失配,Facebook的模型超越了GPT-3

时间:2023-03-16 00:01:09 科技观察

在原来的Transformer架构中,LayerNorm通常被称为Residual之后的Post-LN(Post-LayerNormalization)Transformer。该模型在机器翻译和文本分类等许多自然语言任务中表现良好。最近的研究表明,在Post-LNtransformer中,与较早层的网络相比,较晚层的网络中存在更大的梯度幅度。实践表明,Pre-LNTransformer可以使用较大的学习率,非常小的学习率进行warm-up(即warm-up),通常会产生比Post-LNTransformer更好的性能,所以最近的大pre-LNTransformer训练语言模型倾向于使用Pre-LNtransformer。FacebookAI的研究人员表明,虽然Pre-LN比Post-LN提高了稳定性,但它也有一个缺点:较早层的梯度往往大于较晚层的梯度。这些问题可以通过本研究中提出的NormFormer来缓解,它通过在每一层添加3个归一化操作来缓解梯度幅度不匹配问题(见图1,中):在self-attention之后添加layernormalization,self-attentionAhead-注意输出的明智扩展,在第一个全连接层之后添加层归一化。这些操作减少了早期层的梯度并增加了后期层的梯度,从而使不同层的梯度大小更接近。此外,这些额外的操作产生的计算成本可以忽略不计(+0.4%的参数增加),但这样做可以提高模型预训练的困惑度和下游任务的性能,包括从1.25亿个参数到27亿个参数的因果关系模型和掩码语言模型性能。例如,该研究在最强的1.3B参数基线之上添加了NormFormer,将等效困惑度提高了24%,或者在相同的计算预算下收敛了0.27倍更好的困惑度。该模型实现了与GPT3-Large(1.3B)相同的零样本性能,速度提高了60%。对于屏蔽语言模型,NormFormer将微调的GLUE性能平均提高了1.9%。论文地址:https://arxiv.org/pdf/2110.09456.pdf与计算匹配和fine-tunedPre-LNbaseline相比,NormFormer模型可以更快达到目标预训练perplexity,实现更好的预训练Perplexity和下游任务性能。该论文的第一作者SamShleifer在Twitter上表示:“很高兴发布NormFormer,我们的新语言建模架构在我们试验的每个扩展(高达2.7B参数)上都优于GPT-3。机器学习研究员EthanCaballero来自魁北克蒙特利尔学习算法研究所的研究人员表示:“更多的规范化是你所需要的,在GPT-3架构中使用NormFormer可以实现SOTA性能,速度提高22%,任务中的下游零样本性能更强。”方法架构NormFormer对Pre-LNtransformer进行了三处修改:在注意力模块内部应用head-wise缩放,并添加了两个额外的LayerNorm操作(一个在注意力力模块中,另一个在第一个全连接层之后)。这些修改引入了少量额外的可学习参数,使每一层都能经济高效地改变特征尺寸,进而改变后续组件的梯度尺寸。这些变化的细节如下图1所示:缩放注意力头。标准的多头注意力操作定义如下:我们建议通过学习的标量系数γ_i来缩放每个注意力头的输出:一个额外的层规范化并将所有组件放在一起。在Pre-LNtransformer中,每一层l修改输入x_l如下:相反,NormFormer修改每个输入x_l如下:其中,粗体操作是新引入的。实验结果对于CasualLanguageModel,研究人员将CLM模型预训练为Small(1.25亿个参数)、Medium(3.55亿个参数)、Large(13亿个参数)和XL(27亿个参数)。他们训练了一个包含3000亿个令牌的基线模型,并使用相同数量的GPU小时来训练NormFormer模型,由于归一化操作的开销,该模型通常将步骤和令牌减少2%-6%。在使用的数据集上,研究人员发现GPT-3中提出的学习率不是最优的。因此,对于除27亿个参数之外的所有大小的基线和NormFormer模型,他们以50,000步训练模型并从{1e?4,6e?4,3e?4,6e?4,1e?3,3e?3}选择性能最佳的学习率来调整学习率。这个过程得到的学习率如下表1所示,NormFormer的学习率是GPT-3的3-5倍。对于掩码语言模型(MLM),研究人员采用了Liu等人使用的RoBERTa-base、Pre-LN架构和超参数。(2019)。对于基线模型,他们在100万个令牌上预训练了200万个批次,这是原始roberta-base训练预算的1/4。相比之下,NormFormer在相同的时间内运行了192万个批次。对于预训练数据,研究人员在Liu等人的英文文本数据集上对所有模型进行了预训练。(2019)由CC100英语语料库和BookCorpus、英语维基百科和CommonCrawl的过滤子集组成。在下面的图2中,研究人员将CLM和MLM的预训练困惑表示为训练时间,即GPU天数。可以看出,对于给定的训练计算预算,NormFormer的训练速度明显更快,并且实现了更好的验证困惑度。研究人员还观察到下游任务的类似趋势。如下表2所示,研究人员使用了Brown等人的任务和提示。(2020)观察CLM模型的零样本精度。同样,NormFormer在所有规模上都优于GPT-3。对于MLM模型,研究人员在下表3中报告了GLUE的微调精度。同样,NormFormerMLM模型在每项任务上都优于其Pre-LN模型。为了衡量架构的稳定性,研究人员使用具有非常大的峰值学习率的学习率计划对其进行训练,这样学习率每一步都会增加一点,直到损失激增。图5显示,与基线相比,NormFormer模型在此环境中可以承受更多更新。