根据文字描述从视频中切图，Transformer：我最擅长这种跨模态的任务

时间：2023-03-21 21:18:38 科技观察

本文经AI新媒体量子位授权转载（公众号ID：QbitAI），转载请联系转载来源。据说Transformer适用于多模态任务。这不，在视频目标分割领域，有人用它来同时处理文本和视图帧，并提出了一种结构更简单、处理速度更快（每秒76帧）的视频实例分割框架。该框架仅需一串文字描述即可轻松“切出”视频中的动态目标：可实现端到端的训练，在基准测试中多个指标优于现有模型。目前相关论文已被CVPR2022录用，研究人员来自以色列理工学院。主要思想是基于文本描述进行视频对象分割，这是一种多模态任务（RVOS），需要结合文本推理、视频理解、实例分割和跟踪技术。现有方法通常依赖于复杂的流水线，难以形成端到端的简单易用模型。随着CV和NLP领域的进步，研究人员意识到可以通过单个多模态Transformer模型同时高效地处理视频和文本。为此，他们提出了这种称为MTTR（MultimodalTrackingTransformer）的新架构，它将RVOS任务建模为序列预测问题。首先，输入文本和视频帧被传递给特征编码器进行特征提取，然后将两者连接成一个多模态序列（每帧一个）。接下来，通过多模态Transformer对两者的特征关系进行编码，将实例级特征解码为一组预测序列。接下来，生成相应的掩码和参考预测序列。最后将预测序列与基线（groundtruth（在监督学习中，通常指样本集中的标签）序列进行匹配，用于训练时的监督或推理时生成最终的预测。具体来说，对于Transformer输出的每个实例序列，系统会生成相应的掩码序列。为此，作者采用了类似FPN（特征金字塔网络）的空间解码器和动态生成的条件卷积核。相反，通过基于掩码和文本的新颖文本参考得分函数association，它可以确定哪个查询序列与文本描述的对象具有最强的关联，然后返回其分割序列作为模型的预测。准确性优于所有现有模型作者在三个相关数据集上测试了MTTR的性能：JHMDB-Sentences、A2D-Sentences和Refer-YouTube-VOS。前两个数据集的指标包括IoU（intersection-over-unionratio，1表示预测帧与真实帧完全重合）、平均IoU、precision@K（正确预测相关结果占所有结果的比例）.结果如下：可以看出，MTTR在所有指标上都优于现有的所有方法，并且与SOTA模型相比，在第一个数据集上的mAP值（平均精度）也提高了4.3。顶级版本的MTTR在平均和整体IoU指标上实现了5.7的mAP增益，并且可以在单个RTX3090GPU上每秒处理76帧图像。MTTR在JHMDBs上的结果表明MTTR也具有很好的泛化能力。更具挑战性的Refer-YouTube-VOS数据集的主要评估指标是区域相似度(J)和轮廓精度(F)的平均值。MTTR“几乎击败”所有这些指标。一些可视化结果表明，即使目标对象被相似实例包围、被遮挡或完全出框等情况下，MTTR也能成功跟踪和分割文本引用对象。最后，作者表示希望更多人看到这一潜力通过这一成就，Transformer在多模态任务中的应用。最后，作者还开通了两个试玩频道。感兴趣的同学可以点击文末链接~△Colabdemo效果演示地址：https://huggingface.co/spaces/akhaliq/MTTRhttps://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing论文地址：https://arxiv.org/abs/2111.14821代码已经开源：https：https://github.com/mttr2021/MTTR

上一篇：解密铁塔公司三大管理者的工作内容

下一篇：拥抱2021年的五种软件开发趋势

根据文字描述从视频中切图，Transformer：我最擅长这种跨模态的任务相关文章