当前位置: 首页 > 科技观察

纯MLP在下游任务上表现不佳?MetaAI等人提出了稀疏MLP,超越了transformer

时间:2023-03-19 16:14:50 科技观察

作为attention-based模型的替代方案,纯MLP架构越来越受到关注。在NLP中,gMLP等最近的工作表明,纯MLP在语言建模方面可以达到与Transformers相当的性能,但在下游任务中弱于Transformers。来自MetaAI和SUNYBuffalo的研究人员分析了MLP在表达能力方面的局限性,并提出了一种稀疏激活MLP,它在特征和输入(令牌)维度上都具有混合专家系统(MoE)。这种稀疏的纯MLP在保持计算不变的同时显着提高了模型容量和表现力。这项研究解决了将条件计算与两种路由策略相结合的关键挑战。论文地址:https://arxiv.org/pdf/2203.06850.pdf与基于transformer的MoE、denseTransformer和pureMLP相比,本研究提出的sparsepureMLP(sMLP)提高了语言建模的困惑度,获得了高达2倍的训练效率提升。最后,我们评估了稀疏纯MLP在六个下游任务上的零样本上下文学习性能,发现它优于基于transformer的MoE和密集transformers。MethodSparseactivationofpureMLPsMLP的整体架构如下图2所示,包含N_1个denseblock和N_2个sparseblock。N_1和N_2都是超参数。每个稀疏块包含两个模块:tMoE模块:本研究使用BaseLayersMoE(Lewisetal.,2021)替换密集变换器中的FFN模块(Vaswanietal.,2017b);sMoE模块:研究设计sMoE模块用于替换Transformer中的自我注意模块(Vaswani等人,2017b)和gMLP中的空间门控单元(SGU,Liu等人,2021a)。tMoE模块和sMoE模块都包含两个元素:专家模块专家模块处理输入。对于tMoE模块,每个专家都包含一个FFN,如上图2所示。对于sMoE模块,每个专家都包含一个空间门控单元,如下图6(右)所示。GatingFunction该模块决定哪个专家应该处理输入的每一部分,因此需要设计一种独特的路由方法将MoE结构扩展到特征维度。图3(左)显示了现有基于变压器的MoE的门控功能示例(Lepikhin等人,2020年;Fedus等人,2021年;Lewis等人,2021年;Roller等人,2021年)。x_ij表示第i个token中第j个隐藏维度的值。如下式(3)所示:tMoE使用参数化的式(3)中描述的学习门函数将这4个令牌发送给FFN层中的3个专家。与一些现有的MoE不同,在仅稀疏的MLP架构中,本研究建议沿隐藏维度对隐藏表示进行分块,并将分块向量发送给不同的专家,如图3(右)所示。与这些现有的MoE不同,在稀疏的全MLP架构中,本研究建议沿隐藏维度对隐藏表示进行分块,并将分块向量发送给不同的专家,如图3(右)所示。特征空间中的路由与路由令牌相比,路由隐藏维度在自回归模型中面临着独特的挑战,如果只是预测未来的令牌,信息就会泄露。此外,与具有自注意力的基于Transformers的MoE不同,这里不能直接应用适当的掩码来防止信息泄漏,因此基于Transformer的MoE不能采用现有的语言建模路由方法。该研究比较了两种解决方案:确定性路由和部分预测。令牌操作的实验和结果比较本研究将sMLP模型与两个密集模型进行了比较:Transformer(Vaswanietal.,2017b)和gMLP(Liuetal.,2021a)。完整的基于MLP和基于Transformer的模型之间的主要区别在于令牌操作。该研究比较了这三种标记方式的操作:Transformers中的自注意力模块、gMLP中的空间门控单元和sMLP模型中的sMoE模块。表3比较了三种令牌操作及其各自的头机制:下图4比较了具有不同头数的密集模型的模型。Transformer模型极大地受益于多头机制。然而,gMLP模型虽然增加了参数数量,但并没有通过multi-head机制来提升性能。sMLP模型也可以看作是gMLP的多头解决方案,它显着提高了基于MLP的模型的性能并优于transformer模型。稀疏MLP的结果下面的图5显示了质量(有效困惑度)和训练效率,通过训练步骤数(顶部)和训练时间(底部)来衡量。研究人员发现,具有两种路由策略变体的sMLP优于具有大致相同数量的FLOP的最先进的基于Transformer的MoE模型。下面的表4总结了主要实验中的详细比较结果。研究人员将所有模型的FLOPs控制在0.8T左右。除了模型层数不同外,它们的embedding维数为1024,hidden维数为4096。可以看出,sMLP模型在25k训练步时泛化能力最好,同时达到了最高的训练速度。HASH层在所有Transformer基线中性能最好,所需时间最少。扩展为了测试模型的可扩展性,该研究将模型大小训练增加了2.0TFLOPs。表4(底部)总结了结果。与表4(顶部)中的模型相比,本研究对所有模型进行了升级,将嵌入从1024更改为2048,并将隐藏维度从4096调整为8192,如表5所示。该研究还增加了预训练数据大小,如表2所示。