Transformer在计算机视觉领域去了哪里？

时间：2023-03-16 13:24:51 科技观察

Transformer模型已经成为自然语言处理（NLP）领域的新范式，现在越来越多的研究试图将Transformer模型强大的建模能力应用到计算机视觉（CV）领域。那么未来Transformer会不会像在NLP领域一样，彻底颠覆CV领域呢？未来的研究思路是什么？微软亚洲研究院MultimediaSearchandMiningGroup研究人员基于VisionTransformer模型在图像和视频理解领域的最新工作可能会给大家带来一些新的认识。作为一种由self-attention机制组成的网络结构，Transformer一“露面”就以其强大的可扩展性和学习远距离依赖性取代了卷积神经网络（CNN）、递归神经网络（RNN）等网络结构，“横扫”自然语言处理（NLP）领域的理解和生成任务。然而，变形金刚并没有就此止步。2020年，Transformer模型首次应用于图像分类任务，取得了优于CNN模型的效果。此后，许多研究开始尝试将Transformer模型强大的建模能力应用到计算机视觉领域。目前，Transformer在三大图像问题——分类、检测和分割上都取得了不错的效果。视觉和语言预训练、图像超分、视频修复、视频对象跟踪等任务也成为Transformer“跨界”的热门方向。基于Transformer结构的应用和设计也取得了不错的效果。Transformer“跨界”图像任务近年来，随着基于Transformer的预训练模型在NLP领域不断展现出惊人的能力，越来越多的工作将Transformer引入图像及相关跨模态领域。Transformer的self-attention机制以其领域独立性和高效计算极大地促进了图像相关任务的发展。端到端视觉和语言跨模态预训练模型视觉-语言预训练任务属于图像领域。其目标是通过设计预训练任务，利用大规模的图像和语言对应数据集，学习出更健壮、更具代表性的模型。提高下游视觉语言任务性能的跨模态特征。现有的视觉语言预训练工作大多沿用传统视觉语言任务的视觉特征表示，即基于目标检测网络离线提取的区域视觉特征，重点关注视觉-语言（VL）在融合和预训练方面，忽略了视觉特征优化对跨模态模型的重要性。这种传统的视觉特征对于VL任务的学习存在两个主要问题：1）视觉特征仅限于原始视觉检测任务的目标类别2）忽略了非目标区域中上下文理解的重要信息。为了在VL模型中优化视觉特征，微软亚洲研究院多媒体搜索与挖掘组的研究人员提出了端到端的VL预训练网络SOHO，为VL训练模型提供了新的探索路径.相关论文《SeeingOutoftHebOx:End-to-EndPre-trainingforVision-LanguageRepresentationLearning》已被CVPR2021Oral收录。论文链接：https://arxiv.org/abs/2104.03135GitHub地址：https://github.com/researchmm/sohoSOHO模型的主要思想是将视觉编码器集成到VL训练网络中，并依赖在VL预训练任务上优化了整个网络，从而简化了训练过程，缓解了依赖人工标注数据的问题。同时，视觉编码器可以在VL预训练任务的指导下在线更新，以提供更好的视觉表示。经验证，SOHO模型不仅减少了人工标注数据的需求，而且在多个下游视觉语言任务（包括视觉问答、图像语言检索、自然语言图像推理等）的公平比较中取得了SOTA结果.)。图1：端到端的视觉语言预训练网络SOHO如图1所示。SOHO由三部分组成：1）基于卷积网络的视觉编码器（可在线更新）；2)VisualDictionary-basedVisualembedding层；3）由多层Transformer组成的VL融合网络。三部分“各司其职”。卷积网络负责将图像表示为一组向量，然后使用视觉词典来表示图像中相似的特征向量。最后，由Transformer组成的网络将基于字典嵌入的视觉特征与文本特征进行融合。对于视觉编码器，研究人员使用ResNet-101作为基础网络结构对输入图像进行编码。与基于目标检测模型的图像编码器相比，该方法的优点是可以简化操作。为了用统一的特征来表示图像中相似的特征，为MVM（MaskedvisionModeling）提供类别标签，研究人员使用了视觉词典。整个字典是在网络学习过程中以动量更新的方式学习的。基于Transform的特征融合网络使用与BERT相同的网络结构。为了优化整个网络，研究人员使用MVM、MLM（MaskedLanguageModeling）和ITM（Image-TextMatching）三个预训练任务进行模型训练，并将得到的参数应用到四个相关的VL下游任务中，均实现了效果良好（如表1-4所示）。表1：SOHO在MSCOCO数据集上与其他方法的文本检索（TR）和图像检索（IR）的性能比较表2：SOHO在VQA2.0数据集上的VQA性能表3：SOHO在NLVR2数据集上表4：VisualSOHO在SNLI-VE数据集上的推理性能最后，通过对视觉词典中一些ID对应的图像内容进行可视化（如图2所示），研究者发现即使没有强监督视觉类别标注，SOHO也可以对视觉进行聚类将具有相似语义的内容放入同一个字典项中。与使用基于目标检测的视觉语言模型相比，SOHO摆脱了图片框的回归要求，推理时间也加快了10倍，在实际场景应用中更加实用方便。图2：图像内容对应的视觉词典部分ID可视化基于纹理Transformer模型的图像超分辨率技术从古代的胶片相机到今天的数字时代，人类拍摄并保存了大量的图像信息，但这些图像不可避免地存在着多种多样程度的缺陷。让图片更清晰、更生动一直是计算机视觉领域的一个重要课题。针对图像超分辨率问题，微软亚洲研究院研究人员创新地将Transformer结构应用于图像生成领域，提出了一种基于纹理Transformer模型TTSR的图像超分辨率方法。该模型可以有效地搜索和传递高清纹理信息，最大限度地利用参考图像信息，将高清纹理正确传递到生成的超分辨率结果中，从而解决纹理模糊和纹理失真的问题。作品《LearningTextureTransformerNetworkforImageSuper-Resolution》发表于CVPR2020。论文链接：https://arxiv.org/pdf/2006.04139.pdfGitHub地址：https://github.com/researchmm/TTSR不同于与以往盲目猜测图片细节的方法不同，研究人员引入了高分辨率参考图像来指导整个超分辨率过程。高分辨率参考图像的引入，将图像超分辨率问题从纹理恢复/生成困难转变为相对简单的纹理搜索和迁移，显着提高了超分辨率结果的指标和视觉效果。如图3所示，TTSR模型包括：LearnableTextureExtractor、RelevanceEmbedding、HardAttention和SoftAttention。图3：TextureTransformer模型传统的Transformer通过层叠的方式让模型表现力更强。但是在图像生成问题中，简单的堆叠很难产生好的结果。为了进一步提高模型对参考图像信息的提取和利用，研究人员提出了一种跨层次的特征融合机制——将提出的textureTransformer应用于x1、x2、x4三个不同的层次，并将纹理transformer应用于不同层次之间levels特征通过上采样或步幅卷积交叉融合。因此，不同粒度的参考图像信息会渗透到不同层次，增强了网络的特征表达能力，提高了生成图像的质量。图4：多纹理Transformer跨层堆叠模型研究人员在CUFED5、Sun80、Urban100和Manga109数据集上对TTSR方法进行了定量比较，如表5所示。图5展示了TTSR与现有方法在不同数据集上的视觉对比结果，可以发现TTSR明显领先于其他方法。表5：TTSR与现有方法在不同数据集上的定量对比结果图5：TTSR与现有方法在不同数据集上的视觉对比结果增加了时间序列维度信息。Transformer可以在时空维度上很好地建模，进而更好地学习图像和特征中的长距离依赖关系，有利于视频相关任务的增强和改进。视频修复：Transformer的首次尝试视频修复是一项经典任务，旨在从视频中的已知内容中推断并填充缺失的内容。广泛应用于老视频修复、去水印等视频剪辑。尽管视频修复技术具有巨大的应用价值，但如何在复杂多变的多个视频帧中找到相关信息，并生成在图像空间和时序上看起来和谐一致的内容，仍然是一个巨大的挑战。为了解决此类问题，微软亚洲研究院的研究人员利用并重新设计了Transformer结构，提出了时空变换网络（Spatial-TemporalTransformerNetwork，简称STTN）。相关论文《LearningJointSpatial-TemporalTransformationsforVideoInpainting》发表于ECCV2020。论文链接：https://arxiv.org/abs/2007.10247GitHub地址：https://github.com/researchmm/STNTNSTTN输入模型的是缺失内容的视频帧和每一帧的mask，输出是对应修复后的视频帧。如图6所示，STTN模型的输入是内容缺失的视频帧和每帧的mask，输出是对应修复后的视频帧。如图6所示，STTN模型采用了CNN-Transformer混合结构。其中，帧级编码器和帧级解码器使用CNN将每个视频帧从像素编码为特征，并将特征解码为视频帧。Transformer充当模型的主干。它将输入的视频帧特征切割成块，对块的序列进行建模，然后通过多层时空Transformer层挖掘输入帧中的已知信息，推断缺失的内容。图6：Spatial-TemporalTransformerNetwork(STTN)模型结构示意图时空Transformer层继承了经典Transformer层强大的attention机制，可以关注与缺失内容相关的信息，不断更新优化预测内容通过多层堆叠。同时，与经典的Transformer层中的每个头不同，该模型使用固定的块大小。为了尽可能多地捕获上下文信息，STTN在不同的头上采用了不同大小的块切割方法。因此，当缺失区域的特征不够丰富时，基于大块的注意力机制可以有效利用更多的已知信息；当缺失区域的特征丰富时，基于小块的注意力机制有助于模型关注更细微的变化。如图7所示，通过可视化STTN最后一层Transformer的attentionmap可以发现，STTN为了填补目标帧中狗身上的缺失区域，可以“准确跟踪”中的信息其他框架来修复缺失的区域。图7：注意力图的可视化（注意力部分以黄色突出显示）。虽然视频中狗在不同帧中的形状和位置因奔跑而有较大差异，但为了填补目标帧（targetframe）中狗的缺失部分，STTN可以“准确跟踪”奔跑的狗在相关的框架狗中。除了STTN模型，论文还提出了动态和静态两种不同的videomask来模拟实际应用。动态遮罩是指视频每一帧的遮罩不断变化，用于模拟去除运动物体的应用；而静态遮罩不随视频变化，用于模拟去水印。论文通过对DAVIS和Youtube-VOS数据集的定性和定量分析，验证了STTN在视频修复任务中的优越性。如视频1所示，STTN能够生成视觉上更逼真的修复结果。由于STTN强大的并行建模功能，它的运行速度也更快（24.10fps对比3.84fps）。目标跟踪新范式：基于时空变换器的视频目标跟踪（VisualObjectTracking）是计算机视觉领域的一项基础且具有挑战性的任务。在过去几年中，基于卷积神经网络的目标跟踪迎来了快速发展。然而，卷积神经网络不擅长对图像和特征之间的长距离依赖关系进行建模。同时，现有的目标跟踪器要么只利用空间信息，要么不考虑时间和空间的联系。导致tracker在复杂场景下性能下降。如何解决以上问题？微软亚洲研究院的研究人员提出了一种新的基于时空Transformer的目标跟踪器范式STARK，将目标跟踪建模为一个端到端的boundingbox预测问题，从而彻底摆脱了超参数敏感的post-处理，该方法在多个短期和长期跟踪数据集上取得了最佳性能。相关论文《LearningSpatio-TemporalTransformerforVisualTracking》链接：https://arxiv.org/abs/2103.17154GitHub地址：https://github.com/researchmm/starkSTARK包括Spatial-Only和Spatio-Temporal版本，其中Spatial-Only版本仅使用空间信息，而Spatio-Temporal版本同时使用时间和空间信息。Spatial-Only版本的框架图如图8所示，首先将第一帧的模板和当前帧的搜索区域送入骨干网提取视觉特征，然后将特征图沿空间维度展开拼接得到特征序列。之后，Transformer编码器会对序列元素之间的全局关联进行建模，利用学习到的全局信息对原有特征进行强化，使得新的特征序列对目标具有更强的判别力。受到DETR的启发，研究人员使用解码器和目标查询（TargetQuery）对编码器的输出进行解码。目标查询与上述编码器输出的特征序列交互，以学习与目标相关的重要信息。最后将encoder输出的特征序列和decoder输出的新的目标query特征一起送入boundingbox预测模块，得到最终的boundingbox坐标。图8：Spatial-Only版本的框架图。boundingbox预测模块的结构如图9所示。首先，从encoder的输出序列中提取与搜索区域相关的特征，用特征序列匹配decoder输出的目标query特征。一次计算注意力机制，强化目标区域的特征，弱化非目标区域的特征。然后恢复注意力机制强化后的搜索区域特征序列的空间结构，通过简单的全卷积预测目标左上角和右下角的一对角点（corners）的热图网络，而最终的角点坐标是通过计算角点坐标的数学期望得到的。与之前的Siamese和DCF方法不同，该框架将目标跟踪建模为直接边界框预测问题，并且可以在每一帧上直接预测边界框坐标，而无需使用任何超参数敏感的后处理。图9：boundingboxpredictionmodule的结构Spatio-Temporal版本的框架图如图10所示，粉色区域为新增加的利用时序信息的结构。新框架额外添加了一个“动态模板”作为新的输入。动态模板根据中间帧的跟踪结果进行裁剪，并随跟踪动态更新，为整帧补充缺失的时序信息。使用第一帧模板、当前帧搜索区域和动态模板作为Transformer编码器的输入，编码器可以从全局视角提取时空信息并学习鲁棒的时空联合表示。除了动态模板之外，研究人员还引入了一个由多层感知器实现的更新控制器来更新动态模板，它与边界框预测头并行连接，以预测当前帧的可靠程度的置信度分数.图10：时空版本框架图STARK在多个短期跟踪和长期跟踪数据集上取得了最先进的性能，运行速度可以达到30FPS到40FPS。其中，在LaSOT、GOT-10K、TrackingNet这三个大型目标跟踪数据集上的结果如下图所示。图11：在LaSOT数据集上的结果对比表6：在GOT-10K数据集上的结果对比表7：在TrackingNet数据集上的结果对比以上四个作品成功地将Transformer结构应用于图像内容增强和视频内容分析，充分展示了Transformer的优势和潜力。目前，研究人员已经看到Transformer在图像分类、目标检测和分割等基本视觉任务以及3D点云分析和图像和视频内容生成等新兴主题上大放异彩。未来，视觉Transformer结构的设计和自动搜索将是一个很有前途的研究课题。相信Transformer结构将在计算机视觉领域继续展现其强大的模型潜力。

上一篇：勒索软件正在迎来第二次进化，拒绝支付赎金的企业将被“公开处决”

下一篇：consortia在MCU编程中的应用

Transformer在计算机视觉领域去了哪里？相关文章