当前位置: 首页 > 科技观察

注入Attention,准确率提升30%!谷歌发布最新多目标“动态抠图”模型

时间:2023-03-18 12:36:12 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。只需要第一帧图像+边界提示,就可以将视频中的物体“裁剪”出来,进行轨迹跟踪:以上是谷歌最新的研究成果。该方法通过在视频中引入注意力机制,成功解决了以往采用无监督学习的多目标分割和跟踪方法的一些缺点。现在它不仅可以泛化到更多样化和视觉上更复杂的视频,还可以处理更长的视频序列。通过实验还发现,与之前的模型相比,谷歌新方法在MOVi数据集上的mIoU直接提升了近30%。为“动态抠图”引入注意力机制的方法被命名为SAVi(SlotAttentionforVideo)。以前的无监督目标分割和跟踪方法最大的问题是它们只能应用于非常简单的视频。为了处理视觉效果更复杂的视频,SAVi采用弱监督学习:(1)以光流(opticalflow)预测为训练目标,引入注意力机制;(2)在第一帧图像上给出初始提示(一般是将待分割的物体框起来,或者给出物体上单个点的坐标)进行分割指导。具体来说,SAVi受常微分方程的“预测-校正”方法的启发,对每个可见视频帧执行预测和校正步骤。为了描述视频对象随时间的状态,包括与其他对象的交互,SAVi在执行光流预测时使用时隙之间的自注意力。Slot指的是视频中的每一个对象,用不同的颜色来区分。在校正阶段,使用带输入的槽归一化交叉注意力来校正(更新)槽表示集。然后预测器的输出随着时间的推移初始化整流器,允许模型最终以一致的方式随着时间的推移跟踪对象。△SAVi模型架构图训练时,每个视频分为6个6帧子序列,第一帧接收提示信号,每帧有两轮slotattention。在完全无监督的视频分割中,研究人员以64的批量大小进行了100,000步的训练。无需提示,也可以进行简单的视频分割和跟踪。在CATER数据集上,测试表明SAVi架构完全适用于无监督对象表示学习。在光流条件监督的情况下,SAVi在MOVi数据集上获得了72.1%的mIoU,分别比基线模型CRW和T-VOS高出近30%和近20%。SAVi在MOVi++数据集上的mIoU得分为45.9%,略高于T-VOS,低于CRW5%。此外,还可以看出,在图像的第一帧以质心的形式给出提示比边界框效果好一点,但差异并不显着。值得注意的是,即使没有任何提示,该方法也可以分割一些具有简单纹理的动态场景,例如在数据集Sketchy上。然而,在真实世界中完全使用SAVi处理复杂视频时仍然存在一些挑战需要克服:1.采用的训练方法假设在训练过程中流信息是可用的,这在真实视频中是不一样的。;2.研究涉及的是一些简单物体的基本运动,实际情况远比这复杂。最后,作者表示,SAVi在分割和跟踪方面仍然表现不错,在第一帧给出提示信息的做法也可能导致各种相关的半监督方法。论文地址:https://arxiv.org/abs.2111.12594