尽管取得了许多显著成就,但深度神经网络(DNN)训练的实际进展在很大程度上独立于理论基础。大多数成功的现代DNN依赖于残差连接和归一化层的特定安排,但如何在新架构中使用这些组件的一般原则仍然未知,它们在现有架构中的作用仍未完全了解。残差架构是最流行和最成功的,最初是在卷积神经网络(CNN)的背景下开发的,后来从注意力网络中衍生出无处不在的Transformer架构。与普通DNN相比,残差架构成功的原因之一是信号传播更好,其中信号传播是指几何信息通过DNN层的传输,并由核函数表示。最近,在残差架构中不涉及残差连接和/或归一化层的情况下,使用信号传播原理来训练更深层次的DNN已成为社区感兴趣的领域。原因有两个:首先,验证了残差架构有效性的信号传播假设,从而阐明了对DNN可解释性的理解;其次,这可能使DNN可训练性的一般原则和方法超越残差范式。对于CNN,Xiao等人的工作。(2018)表明,通过更好的初始化改进信号传播可以有效地训练香草深度网络,尽管与残差网络相比速度显着放缓。Martens等人的工作。(2021)提出了DeepKernelShaping(DKS),利用激活函数转换来控制信号传播,并使用K-FAC等强二阶优化器,实现普通网络和残差网络在ImageNet上的训练速度相等。张等人的工作。(2022)将DKS扩展到更大类的激活函数,在泛化方面也实现了近乎平等。信号传播中需要分析的关键量是DNN的初始化时间核,或者更准确地说,是无限宽度限制下的逼近核。对于多层感知器(MLP)和使用Delta初始化的CNN,内核可以写成一个简单的层递归,仅包含用于直接分析的2D函数。跨层转换器的内核演化更为复杂,因此现有方法(如DKS)不适用于转换器或任何包含自注意力层的架构。在MLP中,信号传播是通过查看(一维)核的行为来判断的,而变换器中的信号传播可以通过查看(高维)核矩阵在网络层中的演化来判断。本研究必须避免对角线元素随着深度的增加而快速增长或收缩的情况,这与不受控制的激活范数有关,这可能导致饱和损失或数值问题。避免等级崩溃对于深度变换器的可训练性是必要的,而是否可以训练没有残差的深度变换器仍然是一个悬而未决的问题。这篇ICLR2023盲审论文解决了这个问题,首次证明可以在没有残留连接或归一化层的情况下成功训练深度变压器。为此,他们研究了深度无残差变压器中的信号传播和秩崩溃问题,并推导出三种方法来防止它们。具体来说,该方法中使用了以下组合:参数初始化、偏置矩阵和位置相关的重新缩放,以及变压器中信号传播特有的几种复杂性,包括与位置编码和因果掩蔽的交互。研究人员凭经验证明,他们的方法可以生成可训练的深度无残差变换器。在实验部分,在WikiText-103和C4数据集上,研究人员表明,使用他们的主要方法,ExponentialSignalPreservingAttention(E-SPA),可以将训练时间延长大约五倍。标准transformer的训练损失为与论文中的无残留变压器相当。此外,通过将这种方法与残差连接相结合,研究人员还表明,没有归一化层的变压器可以达到与标准变压器相当的训练速度。论文地址:https://openreview.net/pdf?id=NPrsUQgMjKK对于这篇论文,GoogleAI首席工程师RohanAnil认为,它是Transformer架构向前迈出的一大步,或者说是根本性的改进。无捷径地构建可训练的深度Transformers迄今为止,纠正Transformerrankcollapse的唯一策略依赖于残差连接,它绕过了自注意力层固有的可训练性问题。相反,该研究直接解决了这个问题。首先通过注意力层更好地理解信号传播,然后根据洞察力进行修改以在深度变换器中实现忠实的信号传输,可以在有或没有残余连接的信号上进行训练。具体来说,首先,该研究对一个只有注意力的深度vanillatransformer进行了简单设置,然后他们假设该transformer具有单头(h=1)设置或多头设置,其中注意力矩阵A为在不同的头上。之间不会改变。如果blockl≤L用attentionmatrixA_l初始化,那么最终block的表示就是X_L:对于上面的等式,如果和是正交初始化的,那么它们在初始化时可以是正交的。在上述假设下,如果使用表示交叉位置输入的核矩阵,经过一些简化,可以得到如下公式:由这个简化的公式(depth-onlyattentiontransformer中的核矩阵),对(A_l)_l可以确定三个要求:必须在每个块中表现良好,避免退化情况,例如等级崩溃和对角线值爆炸/消失;A_l必须是元素方面的非负?l;A_l应该是下三角?l以便与因果Maskattention兼容。在接下来的3.1和3.2节中,研究的重点是寻找满足上述要求的注意力矩阵。他们提出了3种方法,E-SPA、U-SPA和Value-Skipinit,每种方法都用于控制transformer的注意力矩阵,即使在很深的地方也能实现忠实的信号传播。此外,第3.3节演示了如何修改softmax注意力以实现这些注意力矩阵。在下图中,该研究验证了两个提出的SPA方案,U-SPA和E-SPA,表明即使在网络很深的情况下,它也可以成功避免attention-onlyvanillatransformer中的等级崩溃现象。实验性WikiText-103基线:首先,该研究证实没有残差连接的标准深度变换器不可训练,即使它们具有归一化层(LN)和变换激活,但我们的方法可以解决这个问题。如图2所示,可以清楚地看到,去除标准transformer的残差连接使其无法训练,训练loss稳定在7.5左右。如图1所示,标准变压器遭受等级崩溃。另一方面,本研究提出的E-SPA方法优于U-SPA和Value-Skipinit。但是,与本文的无残差方法相比,带有残差和LN的默认transformer仍然保持了训练速度优势。在表1中,该研究使用所提出的方法评估了MLP块中不同激活函数的影响以及LN在无残差变换器中的使用。可以看出,在深度为36时,我们的方法针对一系列激活实现了良好的训练性能:DKS转换的GeLU、TAT转换的LeakyReLU和未转换的GeLU,但不是未转换的Sigmoid。我们还通过实验看到,层归一化对于训练速度来说相对不重要,甚至在使用SPA时对转换后的激活激活是有害的,SPA已经具有控制激活规范的内置机制。在图3中,我们看到无需更多迭代即可匹配默认变压器训练损失的一种方法是使用归一化残差连接。表2显示具有归一化残差和LN的E-SPA优于默认的PreLN转换器。下面的图4(a)显示E-SPA再次优于其他方法;图4(b)表明可以通过简单地增加训练时间来消除训练损失差距。
