当前位置: 首页 > 科技观察

根据文字描述从视频中切图,Transformer:我最擅长这种跨模态的任务

时间:2023-03-21 21:18:38 科技观察

本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系转载来源。据说Transformer适用于多模态任务。这不,在视频目标分割领域,有人用它来同时处理文本和视图帧,并提出了一种结构更简单、处理速度更快(每秒76帧)的视频实例分割框架。该框架仅需一串文字描述即可轻松“切出”视频中的动态目标:可实现端到端的训练,在基准测试中多个指标优于现有模型。目前相关论文已被CVPR2022录用,研究人员来自以色列理工学院。主要思想是基于文本描述进行视频对象分割,这是一种多模态任务(RVOS),需要结合文本推理、视频理解、实例分割和跟踪技术。现有方法通常依赖于复杂的流水线,难以形成端到端的简单易用模型。随着CV和NLP领域的进步,研究人员意识到可以通过单个多模态Transformer模型同时高效地处理视频和文本。为此,他们提出了这种称为MTTR(MultimodalTrackingTransformer)的新架构,它将RVOS任务建模为序列预测问题。首先,输入文本和视频帧被传递给特征编码器进行特征提取,然后将两者连接成一个多模态序列(每帧一个)。接下来,通过多模态Transformer对两者的特征关系进行编码,将实例级特征解码为一组预测序列。接下来,生成相应的掩码和参考预测序列。最后将预测序列与基线(groundtruth(在监督学习中,通常指样本集中的标签)序列进行匹配,用于训练时的监督或推理时生成最终的预测。具体来说,对于Transformer输出的每个实例序列,系统会生成相应的掩码序列。为此,作者采用了类似FPN(特征金字塔网络)的空间解码器和动态生成的条件卷积核。相反,通过基于掩码和文本的新颖文本参考得分函数association,它可以确定哪个查询序列与文本描述的对象具有最强的关联,然后返回其分割序列作为模型的预测。准确性优于所有现有模型作者在三个相关数据集上测试了MTTR的性能:JHMDB-Sentences、A2D-Sentences和Refer-YouTube-VOS。前两个数据集的指标包括IoU(intersection-over-unionratio,1表示预测帧与真实帧完全重合)、平均IoU、precision@K(正确预测相关结果占所有结果的比例).结果如下:可以看出,MTTR在所有指标上都优于现有的所有方法,并且与SOTA模型相比,在第一个数据集上的mAP值(平均精度)也提高了4.3。顶级版本的MTTR在平均和整体IoU指标上实现了5.7的mAP增益,并且可以在单个RTX3090GPU上每秒处理76帧图像。MTTR在JHMDBs上的结果表明MTTR也具有很好的泛化能力。更具挑战性的Refer-YouTube-VOS数据集的主要评估指标是区域相似度(J)和轮廓精度(F)的平均值。MTTR“几乎击败”所有这些指标。一些可视化结果表明,即使目标对象被相似实例包围、被遮挡或完全出框等情况下,MTTR也能成功跟踪和分割文本引用对象。最后,作者表示希望更多人看到这一潜力通过这一成就,Transformer在多模态任务中的应用。最后,作者还开通了两个试玩频道。感兴趣的同学可以点击文末链接~△Colabdemo效果演示地址:https://huggingface.co/spaces/akhaliq/MTTRhttps://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing论文地址:https://arxiv.org/abs/2111.14821代码已经开源:https:https://github.com/mttr2021/MTTR

猜你喜欢