当前位置: 首页 > 科技观察

使用Transformer进行图像语义分割,性能超越最先进的卷积方法

时间:2023-03-17 00:23:03 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。众所周知,在进行图像语义分割时,图像在被编码成一系列的patch后往往会变得模糊,需要上下文信息才能正确分割。因此,上下文建模对图像语义分割的性能至关重要!与以往基于卷积网络的方法不同,来自法国的一个研究团队另辟蹊径,提出了一种只使用Transformer的语义分割方法。最先进的卷积方法”>这个方法“出类拔萃”,可以很好的捕捉图像的全局上下文信息!最先进的卷积方法”>要知道,连FCN(全卷积网络)都存在“图像全球信息访问限制”。(卷积结构目前在图像语义分割方面有无法突破的局限性)而这一次,这种方法在具有挑战性的ADE20K数据集上的性能超过了最先进的卷积方法!最先进的卷积方法》>不得不说,Transformer跨界计算机视觉领域越来越频繁,效果也越来越成功!那么这次优秀的Transformer语义分割有什么区别“公式”?使用VisionTransformer确实如此。这一次,最终命名为Segmenter的语义分割模型,主要是基于去年10月诞生的计算机视觉领域的一个“新秀”Transformer:VisionTransformer,简称ViT。ViT到底有多“骚”?ViT采用纯Transformer架构,将图像分成多个patch进行输入,在很多图像分类任务中不输最先进的卷积网络的性能。缺点是当训练数据集较小时,性能不是很好。Segmenter作为一种纯Transformer编码解码架构,利用了模型每一层的全局图像上下文。基于最新的ViT研究成果,将图像分成patches映射到线性embedding序列,使用encoder进行编码。然后编码器和类嵌入的输出由MaskTransformer解码。上采样后,应用Argmax对每个像素进行逐一分类,输出最终的像素分割图。下面是模型的架构示意图:state-of-the-artconvolutionmethod》解码阶??段采用简单的联合处理imageblocks和classembeddings的方法,decoderMaskTransformer可以直接进行全景分割replacingclassembeddingswithobjectembeddings.Effect说多了也没用,来看看效果如何?首先他们在ADE20K数据集上比较不同的Transformer变体,研究不同的参数(正则化,模型大小,图像块大小,训练数据集大小,模型performance,differentdecoders等),比较Segmenter和基于卷积的语义分割方法。其中,ADE20K数据集,包含具有挑战性的细粒度(fine-grained)标签场景,是最具挑战性的语义分割方法之一数据集下表是不同正则化方案的比较:他们发现随机深度(StochasticDepth)方案可以影响roveperformanceindependently,dropout无论是单独使用还是结合随机深度都会损失性能。最先进的卷积方法”>不同图像块大小和不同transformers的性能比较发现,增加图像块大小会导致图像更粗糙的表示,但会产生处理速度更快的小序列。减小块大小是一个在不引入任何参数的情况下进行强大的改进!但是,Attention需要在更长的序列上进行计算,这会增加计算时间和内存占用。state-of-the-artconvolutionmethods》>Segmenter对于大型transformer模型或小型imagepatches:State-of-the-artconvolutionmethods”>(表格中间是不同的编码器和线性解码器,表格底部是不同的编码器和MaskTransformer作为解码器)下图也清晰的展示了Segmenter的优势,其中Seg/16模型(图像块大小为16x16)在性能和精度方面表现最好。最先进的卷积方法》>最后,再来看看Segmenter和SOTA的对比:在最具挑战性的ADE20K数据集上,Segmenter的两项指标都高于所有SOTA模型!最先进的卷积方法》>(中间太长省略)《最先进的卷积方法》>在Cityscapes数据集上与大多数SOTA相当,只比表现最好的Panoptic-Deeplab低0.8。最先进的卷积方法》>在Pascal中在Context数据集上的表现也是如此。《最先进的卷积方法》>剩余参数对比,有兴趣的可以点播查看论文详情。论文地址:https://www.arxiv-vanity.com/papers/2105.05633/