近日,来自阿里、华中科技大学、牛津大学等机构的研究人员发布了大规模视频实例分割数据为强遮挡场景设置OVIS。实验表明,该数据集非常适合衡量算法对遮挡场景的处理能力。对于被遮挡的物体,人类可以根据时间上下文识别、定位和跟踪被遮挡的物体,甚至可以弥补物体被遮挡的部分。那么现有的深度学习方法对遮挡场景的处理能力如何呢?为了探索这个问题,来自阿里、华中科技大学、牛津大学等机构的研究人员构建了一个针对强遮挡场景的大规模视频实例分割数据集OccludedVideoInstanceSegmentation(OVIS)。论文地址:https://arxiv.org/abs/2102.01558项目主页:http://songbai.site/ovis/VideoInstanceSegmentation(VIS)需要算法检测、分割和跟踪视频中的所有对象。与现有的VIS数据集相比,OVIS的主要特点是视频中存在大量各种遮挡。因此OVIS非常适合衡量算法对遮挡场景的处理能力。实验表明,现有方法在强遮挡场景下无法取得令人满意的效果。与广泛使用的YouTube-VIS数据集相比,几乎所有算法都在OVIS上丢掉了一半以上的指标。OVIS数据集介绍研究人员一共收集了近10000个视频,最终选取了901个遮挡严重、运动较多、场景复杂的片段。每个视频至少有两个相互遮挡的目标对象。大多数视频的分辨率为1920x1080,时长在5到60秒之间。他们以每5帧一帧的密度进行高质量的标注,最终得到了OVIS数据集。OVIS一共包含了25个生活中常见的类别,如下图所示,包括人、车和动物。这些类别中的对象通常处于运动状态,因此更容易出现严重的遮挡。此外,OVIS的所有25个类别都可以在大规模图像级实例分割数据集(MSCOCO、LVIS、PascalVOC等)中找到,以方便研究人员进行模型迁移和数据重用。OVIS数据集特征OVIS包含5223个对象的296k高质量掩码注释。与之前的Youtube-VIS数据集相比,OVIS具有更多的掩码和更多的目标对象。研究人员牺牲了一定数量的视频片段来注释更长更复杂的视频,使其更具挑战性。与以往的其他VIS数据集相比,OVIS最大的特点是遮挡严重。为了量化遮挡的严重程度,研究人员提出了一个指标meanBounding-boxOverlapRate(mBOR)来大致反映遮挡的程度。mBOR是指图像中重叠边界框的面积与所有边界框面积的比值。从下表可以看出,OVIS比YouTube-VIS有更严重的遮挡。值得注意的是,除上述基础数据统计外,OVIS在视频时长、对象可见时长、每帧对象数、每段视频对象数等统计上均明显高于YouTube-VIS,即与实际场景一致。比较相似,也进一步增加了OVIS的难度。可视化的OVIS数据集包含多种不同的遮挡类型,根据遮挡程度可分为部分遮挡和完全遮挡;根据被遮挡的场景,可以分为被其他目标物体遮挡、被背景遮挡和被图像边界遮挡。不同类型的遮挡可能同时存在,物体之间的遮挡关系也很复杂。在下面的视频剪辑中,两只熊部分相互遮挡,有时被树木遮挡(背景)。在下面的视频片段中,绿色小车和蓝色小车分别逐渐被白色小车和紫色小车完全挡住,然后逐渐出现在视野中。从下图中的可视化片段也可以看出,OVIS标注质量非常高。研究人员对笼子网格和动物毛发进行了精细注释。有关更多视觉片段,请参阅项目主页。实验研究人员在OVIS上尝试了五种开源现有算法,结果如下表所示。可见OVIS是非常具有挑战性的。使用同样的评价指标,MaskTrackR-CNN在Youtube-VIS验证集上可以达到30.3mAP,而在OVIS验证集上只有10.9;SipMask的mAP也从Youtube-VIS上的32.5下降到OVIS上的10.3。5现有算法中,STEm-Seg对OVIS效果最好,但只得到13.8mAP。总结研究人员构建了一个大规模数据集OVIS,用于遮挡场景中的视频实例分割任务。作为继YouTube-VIS之后的第二个视频实例分割基准,OVIS主要用于衡量模型处理遮挡场景的能力。实验表明,OVIS数据集对现有算法提出了巨大挑战。未来,OVIS还将扩展到视频对象分割(VOS)和视频全景分割(VPS)等场景。期待OVIS能够启发更多的研究者开展复杂场景下视频理解的研究。有关详细信息,请参阅论文。
