归一化改进了预训练并减轻了梯度失配，Facebook的模型超越了GPT-3

时间：2023-03-16 00:01:09 科技观察

在原来的Transformer架构中，LayerNorm通常被称为Residual之后的Post-LN（Post-LayerNormalization）Transformer。该模型在机器翻译和文本分类等许多自然语言任务中表现良好。最近的研究表明，在Post-LNtransformer中，与较早层的网络相比，较晚层的网络中存在更大的梯度幅度。实践表明，Pre-LNTransformer可以使用较大的学习率，非常小的学习率进行warm-up（即warm-up），通常会产生比Post-LNTransformer更好的性能，所以最近的大pre-LNTransformer训练语言模型倾向于使用Pre-LNtransformer。FacebookAI的研究人员表明，虽然Pre-LN比Post-LN提高了稳定性，但它也有一个缺点：较早层的梯度往往大于较晚层的梯度。这些问题可以通过本研究中提出的NormFormer来缓解，它通过在每一层添加3个归一化操作来缓解梯度幅度不匹配问题（见图1，中）：在self-attention之后添加layernormalization，self-attentionAhead-注意输出的明智扩展，在第一个全连接层之后添加层归一化。这些操作减少了早期层的梯度并增加了后期层的梯度，从而使不同层的梯度大小更接近。此外，这些额外的操作产生的计算成本可以忽略不计（+0.4%的参数增加），但这样做可以提高模型预训练的困惑度和下游任务的性能，包括从1.25亿个参数到27亿个参数的因果关系模型和掩码语言模型性能。例如，该研究在最强的1.3B参数基线之上添加了NormFormer，将等效困惑度提高了24%，或者在相同的计算预算下收敛了0.27倍更好的困惑度。该模型实现了与GPT3-Large(1.3B)相同的零样本性能，速度提高了60%。对于屏蔽语言模型，NormFormer将微调的GLUE性能平均提高了1.9%。论文地址：https://arxiv.org/pdf/2110.09456.pdf与计算匹配和fine-tunedPre-LNbaseline相比，NormFormer模型可以更快达到目标预训练perplexity，实现更好的预训练Perplexity和下游任务性能。该论文的第一作者SamShleifer在Twitter上表示：“很高兴发布NormFormer，我们的新语言建模架构在我们试验的每个扩展（高达2.7B参数）上都优于GPT-3。机器学习研究员EthanCaballero来自魁北克蒙特利尔学习算法研究所的研究人员表示：“更多的规范化是你所需要的，在GPT-3架构中使用NormFormer可以实现SOTA性能，速度提高22%，任务中的下游零样本性能更强。”方法架构NormFormer对Pre-LNtransformer进行了三处修改：在注意力模块内部应用head-wise缩放，并添加了两个额外的LayerNorm操作（一个在注意力力模块中，另一个在第一个全连接层之后）。这些修改引入了少量额外的可学习参数，使每一层都能经济高效地改变特征尺寸，进而改变后续组件的梯度尺寸。这些变化的细节如下图1所示：缩放注意力头。标准的多头注意力操作定义如下：我们建议通过学习的标量系数γ_i来缩放每个注意力头的输出：一个额外的层规范化并将所有组件放在一起。在Pre-LNtransformer中，每一层l修改输入x_l如下：相反，NormFormer修改每个输入x_l如下：其中，粗体操作是新引入的。实验结果对于CasualLanguageModel，研究人员将CLM模型预训练为Small（1.25亿个参数）、Medium（3.55亿个参数）、Large（13亿个参数）和XL（27亿个参数）。他们训练了一个包含3000亿个令牌的基线模型，并使用相同数量的GPU小时来训练NormFormer模型，由于归一化操作的开销，该模型通常将步骤和令牌减少2%-6%。在使用的数据集上，研究人员发现GPT-3中提出的学习率不是最优的。因此，对于除27亿个参数之外的所有大小的基线和NormFormer模型，他们以50,000步训练模型并从{1e?4,6e?4,3e?4,6e?4,1e?3,3e?3}选择性能最佳的学习率来调整学习率。这个过程得到的学习率如下表1所示，NormFormer的学习率是GPT-3的3-5倍。对于掩码语言模型(MLM)，研究人员采用了Liu等人使用的RoBERTa-base、Pre-LN架构和超参数。（2019）。对于基线模型，他们在100万个令牌上预训练了200万个批次，这是原始roberta-base训练预算的1/4。相比之下，NormFormer在相同的时间内运行了192万个批次。对于预训练数据，研究人员在Liu等人的英文文本数据集上对所有模型进行了预训练。(2019)由CC100英语语料库和BookCorpus、英语维基百科和CommonCrawl的过滤子集组成。在下面的图2中，研究人员将CLM和MLM的预训练困惑表示为训练时间，即GPU天数。可以看出，对于给定的训练计算预算，NormFormer的训练速度明显更快，并且实现了更好的验证困惑度。研究人员还观察到下游任务的类似趋势。如下表2所示，研究人员使用了Brown等人的任务和提示。(2020)观察CLM模型的零样本精度。同样，NormFormer在所有规模上都优于GPT-3。对于MLM模型，研究人员在下表3中报告了GLUE的微调精度。同样，NormFormerMLM模型在每项任务上都优于其Pre-LN模型。为了衡量架构的稳定性，研究人员使用具有非常大的峰值学习率的学习率计划对其进行训练，这样学习率每一步都会增加一点，直到损失激增。图5显示，与基线相比，NormFormer模型在此环境中可以承受更多更新。

上一篇：提高自身安全意识，维护网络安全环境

下一篇：如何使用SpoolSploit审计Windows后台打印程序的安全性

归一化改进了预训练并减轻了梯度失配，Facebook的模型超越了GPT-3相关文章