全景分割是一项基本的视觉任务,旨在为图像的每个像素分配语义标签和实例标签。语义标签描述每个像素的类别(例如天空、垂直物体等),实例标签为图像中的每个实例提供唯一ID(以区分同一类别的不同实例)。该任务结合了语义分割和实例分割,提供了关于场景的丰富语义信息。虽然语义标签的类别是先验固定的,但分配给图像中对象的实例ID是可以互换的,不会影响识别。例如,交换两辆车的实例ID不会影响结果。因此,经过训练以预测实例ID的神经网络应该能够学习从单个图像到多个实例ID分配的一对多映射。学习一对多映射具有挑战性,传统方法通常利用多阶段管道,包括对象检测、分割和合并多个预测。最近,一些学者基于可微二分图匹配提出了端到端的方法,可以有效地将一对多映射转换为基于判别匹配的一对一映射。然而,这些方法仍然需要自定义架构和专门的损失函数,以及用于全景分割任务的内置归纳偏置。最近的通用视觉模型,如Pix2Seq、OFA、UViM和UnifiedI/O,提倡通用的、与任务无关的框架来处理泛化任务,同时比以前的模型简单得多。例如,Pix2Seq从图像中生成一系列具有语义意义的序列来完成一些核心视觉任务,而这些模型都是基于Transformers来训练自回归模型。在一篇新论文中,GoogleBrain的TingChen、GeoffreyHinton等人遵循相同的哲学,从条件离散数据生成的角度理解全景分割任务问题。论文链接https://arxiv.org/pdf/2210.06366.pdf如图1所示,研究人员为全景蒙版设计了一个生成模型,并为模型输入的每张图片生成了一组离散的token。用户只需将过去帧的预测作为附加条件信号,即可将此模型应用于视频数据(在线数据/流媒体)。这样,模型可以自动学习跟踪和分割对象。全景分割的生成建模具有挑战性,因为全景蒙版是离散的或分类的,并且模型可能非常大。例如,要生成512×1024的全景掩码,模型必须生成超过1M的离散标签(语义和实例标签)。这对于自回归模型来说还是比较昂贵的,因为token本质上是顺序的,很难随着输入数据的规模而变化。扩散模型更擅长处理高维数据,但它们最常应用于连续而非离散域。通过用模拟位表示离散数据,作者表明可以直接在大型全景掩模上训练扩散模型,而无需学习潜在空间。通过广泛的实验,研究人员证明他们的通用方法可以在类似环境中与最先进的专家方法相媲美。ModelArchitectureDiffusion模型采样是迭代完成的,因此网络的前向传递在推理过程中必须运行多次。因此,如图2所示,研究人员有意将网络拆分为两个组件:1)图像编码器;2)掩码解码器。前者将原始像素数据映射到高级表示向量,然后掩模解码器迭代地读出全景掩模。像素/图像编码器编码器是一种将原始图像映射到中的特征图的网络,其中H'和w'是全景蒙版的高度和宽度。全景蒙版可以与原始图像大小相同,也可以稍小一些。在这项工作中,研究人员使用ResNet作为主干网络,然后使用Transformer的编码器层作为特征提取器。为了确保输出的特征图具有足够的分辨率并包含不同尺度的特征,受U-Net和特征金字塔网络的启发,研究人员使用具有双边连接的卷积和来自不同分辨率的上采样操作来合并特征。虽然可以使用更复杂的编码器,这将允许使用架构设计的一些最新进展,但这不是网络模型的主要重点,因此研究人员仅使用更简单的特征提取器来说明其在模型中的作用。MaskDecoder解码器在模型推理过程中根据图像特征迭代地细化全景掩模。具体来说,研究人员使用的maskdecoder是TransUNet。该网络将来自编码器的图像特征图和噪声掩码(随机初始化或从编码过程中迭代)的串联作为输入,并输出掩码的准确预测。解码器和用于图像生成和图像到图像转换的标准U-Net架构之间的一个区别是,本文中使用的U-Net使用一个Transformer-Decoder层,在上采样之前在其之上有一个交叉注意层.结合编码图像特征。在视频模态中??的应用研究人员将图像调节的全景掩模建模为:p(m|x)。给定视频的3D掩码(具有额外的时间维度),我们的模型可以直接应用于视频全景分割。为了适应在线/流媒体视频设置,可以改用p(m_t|x_t,m_(t-1),m_(t-k))来建模,从而根据当前图像生成新的全景图,前一刻面具的面具。如图5所示,可以通过将过去的全景蒙版(m_(t-1),m_(t-k))与现有的噪声蒙版连接起来来实现这种变化。除了这个微小的变化之外,其他一切都与视频基础模型(p(m|x))相同。该模型非常简单,通过对图像全景模型进行微调即可应用于视频场景。本文的实验结果与两类最先进的方法进行了比较,即专家方法和通用方法。表1总结了MS-COCO数据集的结果。Pix2Seq-D在基于ResNet-50的主干上的泛化质量(PQ)与最先进的方法相比具有竞争力。与其他最近的通用模型(如UViM)相比,我们的模型在效率更高的同时表现得更好。表2使用标准J&F指标将Pix2Seq-D与DAVIS数据集上无监督视频对象分割的最先进方法进行了比较。值得注意的是,基线不包括其他通用模型,因为它们不能直接适用于此任务。我们的方法无需特殊设计即可获得与最先进方法相同的结果。图8、9和10显示了Pix2Seq-D在MS-COCO、Cityscape和DAVIS上的示例结果。
