当前位置: 首页 > 科技观察

前馈网络+线性交互层=残差MLP,Facebook的纯MLP图像分类架构进军该领域

时间:2023-03-14 17:07:38 科技观察

最近,多层感知器(MLP)成为CV领域的重点研究对象,谷歌、清华大学和清华大学的研究其他机构的作者先后提出了纯MLP构建的视觉架构和新的attention机制。这些研究将CV的研究重心重新转向了MLP。最近,Facebook提出了ResMLP,这是一种纯MLP架构,用于图像分类和数据高效训练,在使用现代训练方法时,它在ImageNet数据集上取得了相对较好的性能。日前,Google提出的MLP-Mixer引爆了CV圈。它不需要卷积和注意机制。它只需要MLP就可以达到媲美CNN和ViT的性能。同样,清华大学的Jittor团队提出了一种新的注意力机制,称为“ExternalAttention”,基于两个外部的、小的、可学习的和共享的记忆,只使用两个级联的线性层和归一化层就可以取代“Self-attention”在现有流行的学习架构,进一步揭示了线性层与注意力机制之间的关系;实现多个任务性能改进的通用组件。MLP->CNN->Transformer->MLP圈似乎是一种趋势。最近,Facebook的研究人员进一步推动了这一趋势,他们提出了ResMLP(ResidualMulti-LayerPerceptron),一种用于图像分类的纯多层感知器(MLP)架构。论文链接:https://arxiv.org/pdf/2105.03404.pdf架构极其简单:它以一个扁平化的图像块作为输入,通过一个线性层对其进行映射,然后使用两个残差操作来投影特征更新:(i)独立用于所有通道的简单线性补丁交互层;(ii)具有单个隐藏层的MLP独立用于所有补丁。在网络的末端,这些补丁被平均汇集并馈送到线性分类器。该架构受到ViT的启发,但更简单:它不使用任何形式的注意机制,仅由线性层和GELU非线性激活函数组成。这种架构比Transformer训练更稳定,不需要批处理特定或跨通道规范化(例如Batch-Norm、GroupNorm或LayerNorm)。训练过程基本延续了DeiT和CaT的训练方式。由于ResMLP的线性特性,模型中的补丁交互可以很容易地可视化和解释。尽管第一层学习到的交互模式与小型卷积滤波器非常相似,但研究人员观察到更深层的补丁之间更微妙的交互。这些包括一些形式的轴向过滤器(axialfilters)和早期的网络。长期互动。架构方法ResMLP的具体架构如下图1所示,它采用路径扁平化结构:ResMLP的整体过程以一个由N×N个不重叠的patch组成的网格作为输入,其中N通常为16。这些非然后重叠的补丁独立地通过线性层以形成N^2d维嵌入。接下来,将生成的N^2d维嵌入馈入一系列剩余MLP层以生成N^2d维输出嵌入。这些输出嵌入依次平均为表示图像的d维向量,该向量被送入线性分类器以预测与图像相关联的标签。交叉熵损失用于训练。残差多感知器层网络序列中的所有层都具有相同的结构:线性子层+前馈子层。与Transformer层类似,每个子层都通过跳跃连接并行化。我们没有使用LayerNormalization,因为在使用等式(1)中的仿射变换时,即使没有层归一化,训练也是稳定的。研究人员对每个残差块使用了两个仿射变换。作为预归一化,Aff取代了层归一化并且不使用通道统计。作为残差块的后处理,Aff实现了层缩放(LayerScale),以便在后归一化过程中可以使用与[50]中相同的小值进行初始化。两种转换都在推理时集成到线性层中。此外,研究人员在前馈子层采用了与Transformer相同的结构,只使用GELU函数而不是ReLU非线性。与Transformer层的主要区别是研究人员使用下面等式(2)中定义的线性交互而不是自注意力:ResMLPassociatedwithViTisalargesimplificationofViTmodel,但有以下区别:ResMLPdoes不使用任何自注意力块,使用非线性线性补丁交互层;ResMLP不使用额外的“类(class)”标记,而是仅使用平均池化;ResMLP不使用任何形式的位置嵌入,不需要,因为补丁之间的线性通信模块考虑了补丁位置;ResMLP不采用层前归一化,而是使用简单的可学习仿射变换,从而避免任何形式的批处理和通道级统计。实验结果研究人员在ImageNet-1k数据集上训练模型,该数据集包含120万张图像,均匀分布在1000个对象类别中。他们在实验中采用了两种训练范式:监督学习和知识蒸馏。首先,研究人员在监督学习框架下将ResMLP与Transformer和convnet进行了比较。如下表1所示,ResMLP取得了相对较好的Top-1精度。其次,利用知识蒸馏来提高模型的收敛性,结果如下表2所示。与DeiT模型类似,ResMLP可以从convnet蒸馏中受益匪浅。实验还评估了ResMLP在迁移学习方面的表现。下面的表3显示了不同网络架构在不同图像基准上的性能。该数据集使用CIFAR-10、CIFAR100、Flowers-1022、StanfordCars和iNaturalist。权重稀疏性测量也是研究人员关注的问题之一。下图2中ResMLP-24线性层的可视化显示线性通信层是稀疏的,更详细的定量分析见下图3。事实证明,所有三个矩阵都是稀疏的,实现补丁通信的层明显更稀疏。最后,研究人员探索了MLP的过拟合控制,泛化问题在下图4的控制实验中进行了探索。