当前位置: 首页 > 科技观察

SwinTransformer遇上DCN,可变形attentionTransformer模型优于大部分ViT

时间:2023-03-12 01:57:32 科技观察

Transformers。最近,它在各种视觉任务中表现出色,感受野赋予了Transformer比CNN更强的表示能力。然而,简单地扩大感受野会导致一些问题。一方面,使用denseattention(如ViT)会导致过多的内存和计算成本,特征可能会受到感兴趣区域之外的无关部分的影响;另一方面,PVT或SwinTransformer中采用的稀疏注意力与Data-independent相同,这可能会限制建模远程关系的能力。为了缓解这些问题,清华大学、AWSAI和北京致远人工智能研究院的研究人员提出了一种新颖的可变形自注意力模块,其中键值对在自注意力中的位置以数据相关的方式选择.这种灵活的方案使自我注意模块能够专注于相关区域并捕获更多信息特征。基于此,该研究提出了可变形注意力变换器(DeformableAttentionTransformer,DAT),这是一种具有可变形注意力的通用骨干网络模型,适用于图像分类和密集预测任务。该研究通过广泛的基准测试证明了模型性能的改进。论文地址:https://arxiv.org/abs/2201.00520v1DeformableAttentionTransformer现有的分层视觉Transformer,尤其是PVT和SwinTransformer,试图解决过度注意力的挑战。前者的下采样技术导致严重的信息丢失,而后者的Swinattention导致感受野的增长要慢得多,这限制了对大型物体建模的潜力。因此,需要依赖数据的稀疏注意力来灵活地对相关特征进行建模,从而导致在DCN[9]中首次提出可变形机制。然而,在Transformer模型中实现DCN是一个非常重要的问题。在DCN中,特征图上的每个元素单独学习其偏移量,其中H×W×C特征图上的3×3可变形卷积的空间复杂度为9HWC。如果同样的机制直接应用在attention模块中,空间复杂度会急剧上升到N_qN_kC,其中N_q,N_k是query和key的数量,通常与featuremapsizeHW具有相同的尺度,导致近似双二次的复杂。尽管DeformableDETR[54]已经设法通过在每个尺度上设置较少数量的N_k=4个键来减少这种开销,并且由于不可接受的信息丢失(参见详细比较)而作为检测头工作得很好,但专注于骨干网络不能正常工作。同时,[3,52]中的观察表明,不同的查询在视觉注意力模型中具有相似的注意力图。因此,本研究选择了一种更简单的解决方案,即为每个查询共享shift键和值,以实现有效的权衡。ModelArchitecture该研究在Transformer(Eq.(4))中用可变形注意力替换vanillaMHSA,并将其与MLP(Eq.(5))相结合以构建可变形视觉transformer块。在网络架构方面,DAT与[7,26,31,36]具有相似的金字塔结构,广泛适用于需要多尺度特征图的各种视觉任务。如下图3所示,形状为H×W×3的输入图像首先通过步长为4的4×4非重叠卷积进行嵌入,然后归一化层获得补丁嵌入。为了构建分层特征金字塔,主干由4个阶段组成,步幅逐渐增加。在两个连续的阶段之间,有一个步长为2的非重叠2×2卷积,它对特征图进行下采样,将空间大小减半并将特征维度加倍。在分类任务中,研究首先对最后阶段的特征图输出进行归一化,然后采用具有池化特征的线性分类器来预测对数;在目标检测、实例分割和语义分割任务中,DAT集成了视觉模型中提取多尺度特征的骨干作用。本研究在每个阶段为特征添加一个归一化层,然后将它们馈送到对象检测中的FPN[23]或语义分割中的解码器等模块中。实验本研究对3个数据集进行实验,以验证所提出的DAT的有效性。本研究展示了ImageNet-1K[10]分类、COCO对象检测和ADE20K语义分割任务的结果。此外,该研究还提供了消融研究和可视化结果,以进一步证明该方法的有效性。ImageNet-1K分类ImageNet-1K[10]数据集有128万张图像用于训练,5万张图像用于验证。与其他VisionTransformer模型相比,研究人员在训练拆分上训练了DAT的三种变体,并报告了验证拆分上的Top-1准确性。下表2列出了这项研究的300个训练时期的结果。与其他SOTA视觉Transformer模型相比,DAT在计算复杂度相似的情况下实现了Top-1精度的显着提升。DAT在所有三个尺度上都优于SwinTransformer[26]、PVT[36]、DPT[7]和DeiT[33]。在不在Transformer块[13、14、35]中插入卷积或在补丁嵌入[6、11、45]中使用重叠卷积的情况下,DAT在SwinTransformer[26]增益上实现了+0.7、+0.7和+0.5。当以384×384分辨率进行微调时,该模型继续优于SwinTransformer0.3。COCO目标检测COCO目标检测和实例分割数据集有118K训练图像和5K验证图像。本研究在RetinaNet[24]、MaskR-CNN[17]和CascadeMaskR-CNN[2]框架中使用DAT作为主干来评估该方法的有效性。本研究在ImageNet-1K数据集上对模型进行了300个时期的预训练,并遵循SwinTransformer[26]中类似的训练策略以公平地比较这些方法。该研究在1x和3x训练计划中报告了RetinaNet模型上的DAT。如下表3所示,DAT在微型和小型模型中优于SwinTransformer1.1和1.2mAP。当在两级检测器(例如MaskR-CNN、CascadeMaskR-CNN)中实现时,DAT模型在不同尺寸下实现了对SwinTransformer模型的一致改进,如下表4所示。下面的表5给出了各种方法在验证集上的mIoU分数。消融实验为了验证DAT模型中关键组件设计的有效性,本研究进行了消融实验,并报告了ImageNet-1K基于DAT-T的分类结果。对于几何信息开发,该研究首先评估了所提出的可变形偏移和可变形相对位置嵌入的有效性,如下表6所示。针对不同阶段的可变形注意力,本研究将SwinTransformer[26]的shiftedwindowattention替换为不同阶段的可变形注意力。如下表7所示,仅替换最后一个阶段可将注意力提高0.1,替换最后两个阶段可使性能提高0.7(整体精度为82.0)。然而,在早期阶段用更易变形的注意力代替它会稍微降低准确性。可视化该研究将DAT中学习的变形位置的示例可视化,以验证该方法的有效性。如下图4所示,采样点被描绘在物体检测框和实例分割mask之上,从中可以看出这些点已经转移到了目标物体上。