纯MLP在下游任务上表现不佳？MetaAI等人提出了稀疏MLP，超越了transformer

时间：2023-03-19 16:14:50 科技观察

作为attention-based模型的替代方案，纯MLP架构越来越受到关注。在NLP中，gMLP等最近的工作表明，纯MLP在语言建模方面可以达到与Transformers相当的性能，但在下游任务中弱于Transformers。来自MetaAI和SUNYBuffalo的研究人员分析了MLP在表达能力方面的局限性，并提出了一种稀疏激活MLP，它在特征和输入（令牌）维度上都具有混合专家系统（MoE）。这种稀疏的纯MLP在保持计算不变的同时显着提高了模型容量和表现力。这项研究解决了将条件计算与两种路由策略相结合的关键挑战。论文地址：https://arxiv.org/pdf/2203.06850.pdf与基于transformer的MoE、denseTransformer和pureMLP相比，本研究提出的sparsepureMLP（sMLP）提高了语言建模的困惑度，获得了高达2倍的训练效率提升。最后，我们评估了稀疏纯MLP在六个下游任务上的零样本上下文学习性能，发现它优于基于transformer的MoE和密集transformers。MethodSparseactivationofpureMLPsMLP的整体架构如下图2所示，包含N_1个denseblock和N_2个sparseblock。N_1和N_2都是超参数。每个稀疏块包含两个模块：tMoE模块：本研究使用BaseLayersMoE(Lewisetal.,2021)替换密集变换器中的FFN模块(Vaswanietal.,2017b)；sMoE模块：研究设计sMoE模块用于替换Transformer中的自我注意模块（Vaswani等人，2017b）和gMLP中的空间门控单元（SGU，Liu等人，2021a）。tMoE模块和sMoE模块都包含两个元素：专家模块专家模块处理输入。对于tMoE模块，每个专家都包含一个FFN，如上图2所示。对于sMoE模块，每个专家都包含一个空间门控单元，如下图6（右）所示。GatingFunction该模块决定哪个专家应该处理输入的每一部分，因此需要设计一种独特的路由方法将MoE结构扩展到特征维度。图3（左）显示了现有基于变压器的MoE的门控功能示例（Lepikhin等人，2020年；Fedus等人，2021年；Lewis等人，2021年；Roller等人，2021年）。x_ij表示第i个token中第j个隐藏维度的值。如下式（3）所示：tMoE使用参数化的式（3）中描述的学习门函数将这4个令牌发送给FFN层中的3个专家。与一些现有的MoE不同，在仅稀疏的MLP架构中，本研究建议沿隐藏维度对隐藏表示进行分块，并将分块向量发送给不同的专家，如图3（右）所示。与这些现有的MoE不同，在稀疏的全MLP架构中，本研究建议沿隐藏维度对隐藏表示进行分块，并将分块向量发送给不同的专家，如图3（右）所示。特征空间中的路由与路由令牌相比，路由隐藏维度在自回归模型中面临着独特的挑战，如果只是预测未来的令牌，信息就会泄露。此外，与具有自注意力的基于Transformers的MoE不同，这里不能直接应用适当的掩码来防止信息泄漏，因此基于Transformer的MoE不能采用现有的语言建模路由方法。该研究比较了两种解决方案：确定性路由和部分预测。令牌操作的实验和结果比较本研究将sMLP模型与两个密集模型进行了比较：Transformer(Vaswanietal.,2017b)和gMLP(Liuetal.,2021a)。完整的基于MLP和基于Transformer的模型之间的主要区别在于令牌操作。该研究比较了这三种标记方式的操作：Transformers中的自注意力模块、gMLP中的空间门控单元和sMLP模型中的sMoE模块。表3比较了三种令牌操作及其各自的头机制：下图4比较了具有不同头数的密集模型的模型。Transformer模型极大地受益于多头机制。然而，gMLP模型虽然增加了参数数量，但并没有通过multi-head机制来提升性能。sMLP模型也可以看作是gMLP的多头解决方案，它显着提高了基于MLP的模型的性能并优于transformer模型。稀疏MLP的结果下面的图5显示了质量（有效困惑度）和训练效率，通过训练步骤数（顶部）和训练时间（底部）来衡量。研究人员发现，具有两种路由策略变体的sMLP优于具有大致相同数量的FLOP的最先进的基于Transformer的MoE模型。下面的表4总结了主要实验中的详细比较结果。研究人员将所有模型的FLOPs控制在0.8T左右。除了模型层数不同外，它们的embedding维数为1024，hidden维数为4096。可以看出，sMLP模型在25k训练步时泛化能力最好，同时达到了最高的训练速度。HASH层在所有Transformer基线中性能最好，所需时间最少。扩展为了测试模型的可扩展性，该研究将模型大小训练增加了2.0TFLOPs。表4（底部）总结了结果。与表4（顶部）中的模型相比，本研究对所有模型进行了升级，将嵌入从1024更改为2048，并将隐藏维度从4096调整为8192，如表5所示。该研究还增加了预训练数据大小，如表2所示。

上一篇：女生撒娇的不同编程方法

下一篇：搞清楚云部署和on-premise部署的区别：这5个问题你要搞清楚

纯MLP在下游任务上表现不佳？MetaAI等人提出了稀疏MLP，超越了transformer相关文章