近日,谷歌AI团队受到Transformer和DETR的启发,提出了使用MaskTransformer进行全景分割的端到端解决方案。全称是end-to-endsolutionforpanopticsegmentationwithmasktransformers,主要用于生成分割MaskTransformer架构的扩展。该方案采用像素路径(由卷积神经网络或视觉Transformer组成)提取像素特征,内存路径(由Transformer-decoder模块组成)提取内存特征,双路径Transformer用于像素特征与内存交互特征。然而,利用交叉注意力的双路径Transformer最初是为语言任务设计的,其中输入序列由数百个单词组成。对于视觉任务,尤其是分割,输入序列由数万个像素组成,这不仅表明输入规模的数量级要大得多,而且与语言词相比也代表了较低的嵌入水平。全景分割是一个计算机视觉问题,是当今许多应用程序的核心任务。它分为两部分,语义分割和实例分割。语义分割就像为图像中的每个像素分配一个语义标签,例如“人”和“天空”。而实例分割只识别和分割图中可数的对象,例如“行人”和“汽车”,并将其进一步划分为几个子任务。每个子任务单独处理,并应用附加模块来组合每个子任务阶段的结果。这个过程不仅复杂,而且在处理子任务和整合不同子任务的结果时引入了许多人为设计的先验。在CVPR2022上发表的《CMT-DeepLab:ClusteringMaskTransformersforPanopticSegmentation》中,文章提出从聚类的角度重新解释和重新设计crossattention(即将具有相同语义标签的像素划分到同一组),从而更好地适应视觉任务。CMT-DeepLab建立在之前最先进的方法MaX-DeepLab的基础上,采用像素聚类方法进行交叉注意力,从而得到更密集和合理的注意力图。kMaX-DeepLab进一步重新设计了交叉注意力,使其更像是一种k-means聚类算法,对激活函数进行了简单的更改。结构概述研究人员不会从聚类的角度重新解释,而不是直接将交叉注意力应用于视觉任务而无需修改。具体来说,他们注意到MaskTransformer对象查询可以被认为是聚类中心(旨在对具有相同语义标签的像素进行分组)。cross-attention的过程类似于k-means聚类算法,(1)一个将像素点分配到聚类中心的迭代过程,其中多个像素点可以分配到单个聚类中心,而有些聚类中心可以不分配,(2)通过对分配给同一聚类中心的像素进行平均来更新聚类中心,如果没有分配像素,则不会更新聚类中心)。在CMT-DeepLab和kMaX-DeepLab中,我们从聚类的角度重新制定交叉注意力,包括迭代聚类分配和聚类更新步骤。鉴于k-means聚类算法的流行,在CMT-DeepLab中,他们重新设计了交叉注意力,以便空间方面的softmax操作(即,沿着图像的空间分辨率应用的softmax操作)实际上分配了聚类中心改为像素,它们沿着聚类中心应用。在kMaX-DeepLab中,我们进一步将空间方面的softmax简化为集群方面的argmax(即沿集群中心应用argmax操作)。他们注意到argmax操作与k-means聚类算法中使用的硬分配(即,一个像素仅分配给一个集群)相同。从聚类的角度重构MaskTransformer的交叉注意力显着提高了分割性能并简化了复杂的Masktransformer管道,使其更具可解释性。首先,使用编码器-解码器结构从输入图像中提取像素特征。然后使用一组聚类中心对像素进行分组,这些聚类中心根据聚类分配进一步更新。最后,迭代执行聚类分配和更新步骤,而最后的分配可以直接用作分割预测。要将典型的MaskTransformer解码器(由交叉注意、多头自注意和前馈网络组成)转换为上面提出的k-means交叉注意,只需将spatial-wisesoftmax替换为聚类最大参数。拟议的kMaX-DeepLab元架构由三个组件组成:像素编码器、增强像素解码器和kMaX解码器。像素编码器是任何网络的支柱,用于提取图像特征。增强像素解码器由一个用于增强像素特征的Transformer编码器和一个用于生成更高分辨率特征的上采样层组成。一系列kMaX解码器将聚类中心转换为(1)掩码嵌入向量,与像素特征相乘以生成预测掩码,以及(2)每个掩码的类别预测。kMaX-DeepLab的元架构结果最后,研究团队在两个最具挑战性的全景分割数据集COCO和Cityscapes上使用全景质量(PQ)指标评估了CMT-DeepLab和kMaX-DeepLab,并将MaX-DeepLab和其他状态-最先进的方法。其中,CMT-DeepLab取得了显着的性能提升,而kMaX-DeepLab不仅简化了修改,还进一步改进。COCOvalset上的PQ为58.0%,PQ为68.4%,Mask平均精度(MaskAP)为44.0%。Cityscapes验证集上83.5%的平均交叉并集(mIoU),没有测试时间增加或使用外部数据集。从聚类的角度设计,kMaX-DeepLab不仅性能更高,而且可以更合理地可视化注意力图以了解其工作机制。在下面的示例中,kMaX-DeepLab迭代地执行集群分配和更新,逐渐提高掩模质量。kMaX-DeepLab的attentionmap可以直接可视化为全景分割,使得模型的工作机制更加合理。结论这项研究展示了一种在视觉任务中更好地设计MaskTransformer的方法。通过简单的修改,CMT-DeepLab和kMaX-DeepLab重新制定了交叉注意力,使其更像是一种聚类算法。因此,所提出的模型在COCO和Cityscapes数据集上实现了最先进的性能。研究团队表示,他们希望DeepLab2库中kMaX-DeepLab的开源版本能够促进未来对专用于视觉的Transformer架构设计的研究。
