当前位置: 首页 > 科技观察

国科大提出CNN和Transformer二体基网络模型,准确率高达84.1%

时间:2023-03-16 10:35:04 科技观察

Transformer和CNN在处理视觉表征方面各有优势,也存在一些无法回避的问题。因此,UCAS、鹏城实验室和华为的研究人员首次将两者结合起来,提出了一种新的conformer模型,可以在不显着增加计算量的情况下,显着提升基础网络的表示能力。论文已被ICCV2021录用。卷积运算擅长提取局部特征,但不具备提取全局表示的能力。为了感知图像的全局信息,CNN必须依靠堆叠的卷积层并使用池化操作来扩大感受野。VisualTransformer的提出打破了CNN在视觉表示上的垄断。得益于self-attention机制,VisualTransformer(ViT,Deit)具备了全局动态感受野的能力,在图像识别任务中取得了较好的效果。但受限于计算复杂度,Transformer需要降低输入分辨率,增加下采样步长,导致图像细节信息在分割patch阶段丢失。因此,中科院大学联合鹏城实验室和华为提出了Transformer基础网络模型,将Transformer和CNN融合在一起。Conformer模型可以在不显着增加计算量的情况下显着提高基础网络的表示能力。目前论文已被ICCV2021录用。论文地址:https://arxiv.org/abs/2105.03889项目地址:https://github.com/pengzhiliang/Conformer此外,Conformer包含并行的CNN分支和Transformer分支,它通过特征耦合模块融合局部和全局特征,目的是在不丢失图像细节的情况下捕捉图像的全局信息。特征图可视化将背景相对复杂的图片的特征可视化,以说明Conformer捕获局部和全局信息的能力:ShallowTransformer(DeiT)特征图(c列)相比ResNet(a列)丢失了很多详细信息,Conformer的Transformer分支特征图(d列)更好的保留了局部特征;从深度特征图来看,DeiT特征图(g列)相比ResNet(e列)信息会保留全局特征,但噪声会大一点;得益于Transformer分支提供的全局特征,Conformer的CNN分支特征图(f列)将保留更完整的特征(相较于e列);Transformer分支的特征图(h列)与DeiT(g列)相比,它保留了更详细的信息并抑制了噪声。网络结构Converter为并行二体网络结构,其中CNN分支采用ResNet结构,Transformer分支采用ViT结构。网络结构图(c)展示了Conformer的缩略图:一个标准的Res??Net主干结构,两个平行分支,两个分类器。(b)展示了每个block中Trans和Conv的连接关系:以2个bottlenecks为例,将第一个bottleneck3x3卷积后的局部特征通过FeatureCouplingModule(FCU)传递给Transformerblock。Transformerblock通过当前transblock将这个局部特征添加到前一个Transblock的全局特征中,运算完成后,将结果通过FCU模块传回Convblock。Convblock的最后一个瓶颈是在1x1卷积后加入局部特征,一起进入3x3卷积。Transformer块夹在两个3x3卷积之间的原因有两个:瓶颈中3x3卷积的通道比较小,这样FCU的fc层参数不会很大;3x3卷积有很强的positionfirsttestinformation,保证去除positionalencoding后的性能。实验结果Conformer网络在ImageNet上进行分类测试,作为预训练模型在MSCOCO上进行目标检测和实例分割实验。分类准确率与37.7M参数、10.6GFlops计算的Conformer-S相比,超过866M参数、17.6GFlops计算的DeiT-B准确率约1.6%。当Conformer-S将参数数量增加到83.3M时,准确率达到84.1%。不同基础网络分类速度和准确率对比:目标检测和实例分割结果对比运行帧率:目标检测和实例分割帧率对比使用FPN+FasterMaskR-CNN框架时,Converter-S/32在帧率/参数/计算相当的情况下,目标检测精度超过FasterRCNN3.7%,实例分割超过MaskR-CNN3.6%。分析总结Conformer是第一个并行的CNN和Transformer混合网络。通过提出的特征耦合模块FCU,各个阶段的局部特征和全局特征会进行交互,使得Conformer兼具两者的优点。在分类方面,它可以用更小的参数和计算量获得更高的准确率,在目标和实例分割上也能实现较大的提升。目前Conformer仅在ImageNet1K数据集上进行训练,未来结合更大的预训练数据集(如ImageNet21K)将成为潜在的基础网络结构。作者介绍了中国科学院大学硕士研究生彭志良、黄伟、顾善志,鹏城实验室工程师王耀伟,鹏城实验室研究员谢灵曦,华为研究员焦建斌,中国科学院大学教授叶启祥