当前位置: 首页 > 科技观察

以CNN为基础模型,可变形卷积InternImage实现检测分割新纪录!

时间:2023-03-12 21:22:53 科技观察

近年来大规模视觉Transformer的蓬勃发展,推动了计算机视觉领域的性能边界。VisionTransformer模型通过扩大模型参数和训练数据的数量击败了卷积神经网络。来自上海人工智能实验室、清华大学、南大大学、商汤科技、香港华人的研究人员总结了卷积神经网络与视觉转换器的差距。从运营商的角度来看,传统CNNs运营商缺乏远距离依赖和自适应空间聚合能力;从结构的角度来看,传统的CNN结构缺乏高级组件。针对上述技术难题,清华大学浦江实验室等机构的研究人员创新性地提出了一种基于卷积神经网络的大规模模型,称为InternImage,它以稀疏动态卷积为核心算子,通过输入相关信息为条件实现自适应空间聚合。InternImage通过减少传统CNN的严格归纳偏差,从海量数据中学习更强大、更稳健的大规模参数模式。其有效性已在图像分类、目标检测和语义分割等视觉任务上得到验证。并在具有挑战性的基准数据集(包括ImageNet、COCO和ADE20K)中取得了有竞争力的结果。在相同的参数水平下,它超越了视觉Transformer结构,为大图像模型提供了新的方向。论文链接:https://arxiv.org/abs/2211.05778开源代码:https://github.com/OpenGVLab/InternImage传统卷积神经网络的局限性扩大模型规模是提高质量的重要策略特征表示。在视觉领域,模型参数的扩展不仅可以有效加强深度模型的表示学习能力,还可以实现从海量数据中学习和获取知识。ViT和SwinTransformer首次将深度模型扩展到20亿和30亿参数级别,其单个模型在ImageNet数据集中的分类准确率也超过90%,远超传统CNN网络和小规模模型,突破技术瓶颈。但由于缺乏长距离依赖和空间关系建模能力,传统CNN模型无法实现类似Transformer结构的模型规模扩展能力。研究人员总结了传统卷积神经网络与视觉Transformer的区别:(1)从算子的角度来看,视觉Transformer的多头注意力机制具有远距离依赖和自适应空间聚合能力。Transformer可以从海量数据中学习到比CNN网络更强大、更稳健的表征。(2)从模型架构来看,visualTransformer除了multi-headattention机制外,还有更多CNN网络没有的高级模块,如LayerNormalization(LN)、前馈神经网络FFN、GELU等.尽管最近的一些工作尝试使用大核卷积来捕获长距离依赖关系,但在模型规模和准确性方面与最先进的视觉Transformer存在一定距离。可变形卷积网络InternImage的进一步扩展,通过重新设计算子和模型结构,提高了卷积模型的可扩展性,减轻了归纳偏差,包括(1)DCNv3算子,在DCNv2算子的基础上引入共享投影权重,Multi-group机制和采样点调制。(2)基本模块,集成高级模块作为模型构建的基本模块单元(3)模块堆叠规则,在扩展模型时对模型的宽度、深度、组数等超参数进行归一化。这项工作致力于构建一个可以有效扩展到大规模参数的CNN模型。一、重新设计的可变形卷积算子DCNv2,适应长距离依赖,削弱归纳偏差;然后,将调整后的卷积算子与高级分量相结合,建立基本单元模块;最后,探索并实现模块的堆叠和缩放规则,以构建具有大规模参数的基础模型,并从海量数据中学习强大的表示。在算子层面,研究首先总结了卷积算子与其他主流算子的主要区别。目前主流的Transformer系列模型主要依靠multi-headself-attention机制来实现大规模模型构建。其算子具有长距离依赖性,足以构建长距离特征之间的连接关系,同时还具有空间自适应聚合能力,实现像素级构建。关系。然而,这种全局注意力机制需要大量的计算和存储,难以实现高效训练和快速收敛。同样,本地注意机制缺乏远程特征依赖性。由于大核稠密卷积缺乏空间聚合能力,难以克服卷积天然的归纳偏差,不利于模型的扩展。因此,InternImage设计了一种动态稀疏卷积算子,在不浪费过多计算和存储资源的情况下,实现全局注意力的效果,从而实现高效训练。研究人员在DCNv2算子的基础上,重新设计调整,提出了DCNv3算子。具体改进包括以下几个部分。(1)共享投影权重。与常规卷积类似,DCNv2中不同的采样点具有独立的投影权重,因此其参数大小与采样点总数呈线性关系。为了降低参数和内存的复杂度,我们借鉴可分离卷积的思想,用位置无关的权重代替分组权重,在不同采样点之间共享投影权重,保留所有采样位置依赖性。(2)引入多组机制。multi-group设计最早在groupconvolution中引入,广泛应用于Transformer的multi-headself-attention,可以配合adaptivespatialaggregation有效提高特征的多样性。受此启发,研究人员将空间聚集过程分为几组,每组都有独立的采样偏移量。此后,单个DCNv3层的不同组具有不同的空间聚合模式,从而产生丰富的特征多样性。(3)采样点调制标量归一化。为了缓解模型容量扩展时的不稳定问题,研究人员将归一化模式设置为Softmax按采样点归一化,这不仅使得大规模模型的训练过程更加稳定,而且构建了连接关系。构建好DCNv3算子之后,下一步就是对模型的基本模块和其他层的整体细节进行归一化,然后通过探索这些基本模块的堆叠策略来构建InternImage。最后,根据所提出模型的扩展规则,构造具有不同参数量的模型。基础模块。与传统CNN广泛使用的瓶颈结构不同,本研究采用了更接近ViTs的基础模块,配备了更高级的组件,包括GELU、层归一化(LN)和前馈网络(FFN),这些都被证明是在各种视觉任务中更有效率。基本模块的细节如上图所示,其中核心算子是DCNv3,它通过一个轻量级的可分离卷积将输入特征传递过来,从而预测采样偏移和调制尺度。对于其他组件,请遵循与普通Transformer相同的设计。叠加规则。为了明确块堆叠过程,本研究提出了两个模块堆叠规则,第一个规则是最后三个阶段的通道数,它由第一阶段的通道数决定,即;第二条规则是每个模块的组数对应每个阶段的通道数,即;三、堆叠方式固定为“AABA”,即stage1、2、4模块堆叠个数相同,且不大于stage3。因此选择参数量为30M的模型作为基础,其具体参数为:Steam输出通道数为64;组数为每级输入通道数的1/16,第一、二、四级模块堆叠数为4,第三级模块堆叠数为18,模型参数为30M。模型缩放规则。基于上述约束下的最优模型,本研究使用约束因子和沿着复合系数对网络模型的两个缩放维度:即深度D(模块堆栈数)和宽度C(通道数)进行归一化对于深度和宽度进行缩放,即,其中,根据实验,其最优设置为。遵循这一规则,该研究构建了不同尺度的模型,即InternImage-T、S、B、L、XL。具体参数为:实验结果图像分类实验:使用427M公共数据集:Laion-400M、YFCC15M、CC12M,InternImage-H在ImageNet-1K中的准确率达到89.2%。物体检测:使用最大的InternImage-H作为主干网络,以DINO作为基础检测框架,在Objects365数据集上预训练DINO检测器,然后在COCO上进行fine-tuning。该模型在目标检测任务中取得了65.4%的最好成绩,打破了COCO目标检测的性能边界。语义分割:在语义分割方面,InternImage-H也取得了非常不错的表现,结合Mask2Former在ADE20K上达到了目前最高的62.9%。结论本研究提出了InternImage,这是一种新的基于CNN的大规模基础模型,可以为图像分类、目标检测和语义分割等多功能视觉任务提供强大的表示。研究人员调整了灵活的DCNv2算子以满足基础模型的需要,并在核心算子的基础上开发了一系列分块、堆叠和缩放规则。大量关于目标检测和语义分割基准的实验已经验证了InternImage可以达到与经过大量数据训练的精心设计的大型视觉Transformer相当或更好的性能,这表明CNN也是一种为大规模视觉基础模型研究打下了坚实的基础。选择。尽管如此,大规模CNN仍处于开发的早期阶段,研究人员希望InternImage可以作为一个良好的起点。