由于复杂的注意力机制和模型设计,大多数现有的视觉Transformer(ViT)在现实世界的工业部署场景中无法像与卷积神经网络(CNN)一样高效地执行。这就引出了一个问题:视觉神经网络能否像CNN一样快速推理并像ViT一样强大?最近的一些作品试图设计CNN-Transformer混合架构来解决这个问题,但这些作品的整体性能远不能令人满意。基于此,字节跳动的研究人员提出了下一代视觉Transformer——Next-ViT——可以有效部署在真实的工业场景中。从延迟/准确性权衡的角度来看,Next-ViT的性能可与优秀的CNN和ViT相媲美。论文地址:https://arxiv.org/pdf/2207.05501.pdfNext-ViT的研究团队通过开发一种新型的卷积块(NCB)和Transformer块(NTB)部署了一种友好的机制来捕获本地和全局信息。然后,该研究提出了一种新颖的混合策略NHS,旨在将NCB和NTB堆叠在一个高效的混合范式中,从而提高各种下游任务的性能。大量实验表明,Next-ViT在各种视觉任务的延迟/准确性权衡方面明显优于现有的CNN、ViT和CNN-Transformer混合架构。在TensorRT上,Next-ViT在COCO检测任务上优于ResNet5.4mAP(40.4vs45.8),在ADE20K分割任务上优于ResNet8.2%mIoU(38.8%vs47.0%)。同时,Next-ViT实现了与CSWin相当的性能,推理速度提高了3.6倍。在CoreML上,Next-ViT在COCO检测任务上的表现优于EfficientFormer4.6mAP(42.6对47.2)和ADE20K分割上的3.5%mIoU(从45.2%到48.7%)。Next-ViT方法的总体架构如下图2所示。Next-ViT遵循分层金字塔架构,在每个阶段配备了补丁嵌入层和一系列卷积或Transformer块。空间分辨率将逐渐降低到原来的1/32,而通道维度将逐步扩大。研究人员首先对信息交互的核心模块进行了深度设计,分别开发了功能强大的NCB和NTB来模拟视觉数据中的短期和长期依赖关系。NTB中还进行了局部和全局信息的融合,进一步提高了建模能力。最后,为了克服现有方法的固有缺陷,本研究系统地研究了卷积和Transformer块的集成,并提出了一种NHS策略来堆叠NCB和NTB以构建新的CNN-Transformer混合架构。NCB研究人员分析了几种经典的结构设计,如下图3所示。ResNet[9]提出的BottleNeck块由于其固有的归纳偏差和易于在大多数硬件平台上部署,长期以来一直主导着视觉神经网络。不幸的是,BottleNeck块不如Transformer块有效。ConvNeXt块[20]通过模仿Transformer块的设计使BottleNeck块现代化。虽然ConvNeXt块提高了网络性能,但其在TensorRT/CoreML上的推理速度受到低效组件的严重限制。Transformer块在各种视觉任务中取得了优异的成绩,但是,由于其复杂的注意机制,Transformer块的推理速度比TensorRT和CoreML上的BottleNeck块慢得多,这是大多数实际应用中的问题。世界工业场景。难以忍受。为了克服上述几种块的问题,本研究提出了NextConvolutionBlock(NCB),它在获得Transformer块的出色性能的同时保持了BottleNeck块的部署优势。如图3(f)所示,NCB遵循MetaFormer的通用架构(已被证明对Transformer块至关重要)。此外,高效的基于注意力的令牌混合器同样重要。本研究设计了一个多头卷积注意力(MHCA)作为部署卷积运算的高效标记混合器,并在MetaFormer[40]范例中使用MHCA和MLP层构建NCB。NTBNCB已经有效地学习了本地表示,下一步需要捕获全局信息。Transformer架构具有很强的捕获低频信号的能力,可以提供全局信息(例如全局形状和结构)。但相关研究发现,Transformer块可能会在一定程度上劣化局部纹理信息等高频信息。不同频段的信号在人类视觉系统中是必不可少的,它们以一定的方式融合在一起,提取出更本质、更独特的特征。受这些已知结果的影响,该研究开发了NextTransformerBlock(NTB),以轻量级机制捕获多频信号。此外,NTB还可作为高效的多频信号混频器,进一步提升整体建模能力。NHS最近的一些工作努力将CNN和Transformer结合起来以实现高效部署。如下图4(b)(c)所示,他们几乎都在浅层使用卷积块,在最后一两个阶段只堆叠Transformer块。这种组合对分类任务很有效。但研究发现,这些混合策略很容易在分割和检测等下游任务上达到性能饱和。原因是分类任务只使用最后一个阶段的输出进行预测,而分割和检测等下游任务通常依赖每个阶段的特征来获得更好的结果。这是因为传统的混合策略只是在最后几个阶段堆叠Transformer块,浅层无法捕获全局信息。本研究提出了一种新的混合策略(NHS),创造性地将卷积块(NCB)和Transformer块(NTB)与(N+1)*L混合范式结合起来。NHS显着提高了模型在下游任务上的性能,并在控制Transformer块比例的同时实现了高效部署。首先,为了赋予浅层捕获全局信息的能力,本研究提出了一种(NCB×N+NTB×1)模式混合策略,其中在每个阶段依次堆叠N个NCB和一个NTB,如图所示如图4(d)所示。具体来说,TransformerBlocks(NTBs)被放置在每个阶段的末尾,使模型能够学习浅层中的全局表示。本研究进行了一系列实验来验证所提出的混合策略的优越性,不同混合策略的性能如下表1所示。此外,如下表2所示,大型模型的性能逐渐饱和。这种现象表明,通过扩大(NCB×N+NTB×1)模式的N来扩大模型尺寸,即简单地增加更多的卷积块并不是最优的,(NCB×N+NTB×1)模式的值Nin会严重影响模型性能。因此,研究人员着手通过大量实验探索N值对模型性能的影响。如表2(中)所示,该研究在第三阶段构建了不同N值的模型。为了构建具有相似延迟的模型以进行公平比较,该研究在N较小时堆叠L组(NCB×N+NTB×1)模型。如表2所示,第三阶段N=4的模型在性能和延迟之间实现了最佳折衷。该研究通过在第三阶段扩大(NCB×4+NTB×1)×L模式的L来进一步构建更大的模型。如表2(下)所示,Base(L=4)和Large(L=6)模型的性能明显优于Small模型,验证了所提出的(NCB×N+NTB×1)×L模型的一般有效性。最后,为了与现有的SOTA网络进行公平比较,研究人员提出了三种典型的变体,即Next-ViTS/B/L。实验结果ImageNet-1K上的分类任务与CNN、ViT和混合网络等最先进的SOTA方法相比,Next-ViT实现了准确率和延迟之间的最佳权衡,结果如表4所示以下。ADE20K上的语义分割任务这项研究将Next-ViT与CNN、ViT和一些最近的语义分割任务混合架构进行了比较。如下表5所示,大量实验表明Next-ViT在分割任务上具有出色的潜力。ObjectDetectionandInstanceSegmentation在目标检测和实例分割任务上,本研究将Next-ViT与SOTA模型进行了比较,结果如下表6所示。消融实验和可视化为了更好地理解Next-ViT,我们通过评估其在ImageNet-1K分类和下游任务上的性能来分析每个关键设计的效果,并将输出特征可视化的傅立叶光谱和热图,以展示Next-ViT的固有优势维特。如下表7所示,NCB在所有三项任务上实现了最佳延迟/准确性权衡。对于NTB块,本研究探讨了NTB的收缩率r对Next-ViT整体性能的影响,结果如下表8所示,降低收缩率r会降低模型延迟。此外,r=0.75和r=0.5的模型比使用纯Transformer(r=1)的模型具有更好的性能。这表明以适当的方式融合多频信号将增强模型的表示学习能力。特别是,r=0.75的模型实现了最佳延迟/准确性权衡。这些结果说明了NTB块的有效性。本研究进一步分析了Next-ViT中不同归一化层和激活函数的影响。如下表9所示,虽然LN和GELU带来了一些性能提升,但TensorRT上的推理延迟明显更高。另一方面,BN和ReLU在整个任务上实现了最佳的延迟/准确性权衡。因此,Next-ViT统一使用BN和ReLU在现实工业场景中进行高效部署。最后,该研究将ResNet、SwinTransformer和Next-ViT的输出特征的傅里叶谱和热图可视化,如下图5(a)所示。ResNet的频谱分布表明,卷积块倾向于捕捉高频信号,难以聚焦低频信号;ViT擅长捕捉低频信号而忽略高频信号;而Next-ViT可以同时捕捉到高质量的多频信号,可见NTB的有效性。此外,如图5(b)所示,Next-ViT比ResNet和Swin能够捕捉到更丰富的纹理信息和更准确的全局信息,这表明Next-ViT具有更强的建模能力。
