,从视频序列中分割文本所指的对象。与半监督视频对象分割相比,RVOS仅依赖于抽象语言描述而不是像素级参考掩码,为人机交互提供了更方便的选择,因此受到了广泛关注。论文链接:https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf本研究的主要目的是解决现有RVOS任务面临的两大挑战:如何结合文本信息和图像信息跨模态融合,从而保持两种模态之间的尺度一致性,将文本提供的有用特征参考充分融入到图像特征中;如何摒弃现有方法的两阶段策略(即首先在图片级别逐帧得到一个粗略的结果,然后将结果作为参考,通过增强时序信息的结构细化),整个RVOS任务被统一到一个单阶段框架中。对此,本研究提出了一种用于跨模态元传输的端到端RVOS框架——YOFO。其主要贡献和创新在于:只需要进行一阶段推理,利用参考文本信息可以直接得到视频目标。在两个主流数据集——Ref-DAVIS2017和Ref-Youtube-VOS上获得的分割结果超越了目前所有的两阶段方法;提出了一个Meta-Transfer模块来增强时序信息,通过这种方式,实现更多以目标为中心的特征学习;提出了多尺度跨模态特征挖掘(Multi-ScaleCross-ModalFeatureMining)模块,可以充分融合语言和图片中有用的特征。实现策略YOFO框架的主要过程如下:输入图像和文本分别通过图像编码器和语言编码器提取,然后在多尺度跨模态特征挖掘模块中进行融合。融合后的双峰特征在包含记忆库的元迁移模块中进行了简化,消除了语言特征中的冗余信息,并可以保留时间信息以增强时间相关性,最终通过解码器获得分割结果。图1:YOFO框架的主要流程。多尺度跨模态特征挖掘模块:该模块通过逐步融合两种不同尺度的模态特征,保持图像特征和语言特征所传达的尺度信息的一致性。在融合过程中会被多尺度的图像信息所淹没。图2:多尺度跨模态特征挖掘模块。Meta-transfer模块:采用了learning-to-learn的策略,这个过程可以简单描述为如下映射函数。传递函数是一个卷积,就是它的卷积核参数:优化过程可以表示为如下目标函数:其中M代表可以存储历史信息的记忆库,W代表不同位置的权重,可以不同位置给予不同程度的关注,Y代表存储在内存库中的每个视频帧的双峰特征。这种优化过程使得元传递函数能够尽可能地重构双峰特征,也使得整个框架能够端到端地进行训练。训练与测试:训练使用的损失函数为lovaszloss,训练集为两个视频数据集Ref-DAVIS2017、Ref-Youtube-VOS,使用静态数据集Ref-COCO的随机仿射变换来模拟视频数据作为辅助训练。meta-transfer的过程在训练和预测过程中都进行,整个网络在1080ti上以10FPS运行。实验结果研究中使用的方法在两个主流RVOS数据集(Ref-DAVIS2017和Ref-Youtube-VOS)上均取得了优异的结果。量化指标和部分可视化效果如下:图3:在两个主流数据集上的量化指标。图4:VOS数据集的可视化。图5:YOFO的其他可视化效果。该研究还使用一系列消融实验来说明特征挖掘模块(FM)和元传输模块(MT)的有效性。图6:特征挖掘模块(FM)和元传输模块(MT)的有效性。此外,该研究将有和没有MT模块的解码器的输出特征可视化,可以清楚地看到MT模块可以正确捕获语言描述的内容并滤除干扰噪声。图7:使用MT模块前后解码器输出特征的比较。关于研究团队本文由美图影像研究院(MTLab)研究人员与大连理工大学卢虎川团队共同提出。美图影像研究院(MTLab)是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品落地的团队。提供核心算法支持,通过前沿技术推动美图产品的发展。被誉为“美图科技中心”。
