当前位置: 首页 > 科技观察

南洋理工提出了从全场景图生成PSG,像素级定位物体,预测56种关系的任务

时间:2023-03-14 18:46:41 科技观察

现在已经2022年了,但是目前大部分的计算机视觉任务仍然只关注图像感知。例如,图像分类任务只需要模型识别图像中的对象类别。尽管目标检测和图像分割等任务进一步需要找到物体的位置,但此类任务仍然不足以说明模型对场景获得了全面深入的理解。下面以图1为例。如果计算机视觉模型只检测到图片中的人、大象、栅栏、树木等,我们通常不会认为模型已经理解了图片,模型也无法根据理解做出更高层次的决策,比如发布“禁止喂食”警告。图1:原始示例图事实上,在智慧城市、自动驾驶、智能制造等许多真实的AI场景中,除了定位场景中的物体外,我们通常还期望模型检测物体之间的距离在图像中。关系推理和预测。例如,在自动驾驶应用中,自动驾驶汽车需要分析路边的行人是推车还是骑自行车。根据具体情况,相应的后续决定可能会有所不同。在智能工厂场景下,判断操作人员是否安全正确操作,也需要监控端的模型具备理解主体关系的能力。大多数现有方法手动设置一些硬编码规则。这使得模型缺乏泛化性,难以适应其他特定情况。场景图生成任务(scenegraphgeneration,简称SGG)旨在解决上述问题。SGG任务除了需要对目标对象进行分类和定位之外,还需要一个模型来预测对象之间的关系(见图2)。图2:用于传统场景图生成任务的场景图生成数据集通常具有对象的边界框注释和边界框之间的注释关系。但是,这种设置有几个固有的缺陷:(1)boundingbox不能准确定位物体:如图2所示,boundingbox在标注人时不可避免地会包含人周围的物体;(2)背景无法标注:如图2所示,大象身后的树木被标注了一个boundingbox,几乎覆盖了整个图像,因此无法准确标注与背景相关的关系,这也使得场景图无法完全覆盖图像,无法实现全面的场景理解。因此,作者提出了一个全场景图生成(PSG)任务,并附有精细注释的大规模PSG数据集。Figure3:FullSceneGraphGeneration如图3所示,该任务利用全景分割对物体和背景进行全面准确的定位,从而解决场景图生成任务的先天不足,从而推动该领域向全面深入的场景理解方向发展。论文信息论文链接:https://arxiv.org/abs/2207.11247项目页面:https://psgdataset.org/OpenPSG代码库:https://github.com/Jingkang50/OpenPSGCompetition链接:https://www.cvmart.net/race/10349/baseECCV'22SenseHumanWorkshop链接:https://sense-human.github.io/HuggingFaceDemo链接:https://huggingface.co/spaces/ECCV2022/PSG作者提出的PSG数据集收录coco近50000张图片,并基于coco已有的全景分割标注,标注分割块之间的关系。作者精细定义了56种关系,包括位置关系(上方、前面等)、常见的客体间关系(悬挂等)、常见的生物动作(行走、站立等)、人的行为(做饭等)、交通场景中的关系(开车、骑行等)、运动场景中的关系(踢腿等)、背景之间的关系(围合等)。作者要求标注者使用更准确的动词,绝不能使用更多歧义的表达方式,尽可能完整地标注图中的关系。PSG模型效果展示任务优势作者通过下图的例子再次理解全场景图生成(PSG)任务的优势:左图来自传统数据集VisualGenome(VG-150)的SGG任务。可以看出,基于检测框的标注通常是不准确的,检测框覆盖的像素不能准确定位物体,尤其是椅子、树木等背景。同时,基于检测框的关系标注通常倾向于标注一些无聊的关系,比如“人有头”、“人穿衣服”等。相比之下,右图中提出的PSG任务提供了更全面(包括前景和背景交互)、更清晰(适当的对象粒度)和更准确(像素级准确)的场景图表示,以驱动场景理解领域的发展。两种类型的PSG模型为了支持提出的PSG任务,作者搭建了一个开源代码平台OpenPSG,实现了四种两阶段方法和两种单阶段方法,方便大家开发、使用和分析.两阶段方法利用Panoptic-FPN在第一阶段对图像进行全景分割。接下来作者提取全景分割得到的物体的特征和每对物体融合的关系特征,送入下一阶段的关系预测阶段。该框架融合并再现了IMP、VCTree、Motifs、GPSNet等传统场景图生成的经典方法。PSGFormer是一种基于双解码器DETR的单阶段方法。该模型首先通过a)中的卷积神经网络主干提取图像特征并添加位置编码信息作为编码器的输入,同时初始化一组用于表示三元组的查询。与DETR类似,在b)中,该模型使用编码器的输出作为键和值,连同表示三元组的查询一起输入到解码器中以进行交叉注意操作。然后,在c)中,模型将每个解码查询输入到主谓宾三元组对应的预测模块中,最终得到对应的三元组预测结果。PSGFormer是一种基于双解码DETR的单阶段方法。模型a)通过CNN提取图像特征,并将位置编码信息输入编码器。同时初始化两组查询,分别表示对象和关系。然后在步骤b)中,基于编码器编码的图像信息,模型分别在对象解码器和关系编码器中通过交叉注意解码学习对象查询和关系查询。两类query学习后,在c)中映射后进行匹配,得到pairedtripletquery。最后在d)中使用预测头分别完成对象查询和关系查询的预测,根据c)中的匹配结果得到最终的三元组预测结果。PSGTR和PSGFormer都是在DETR的基础上进行了扩展和改进的模型。不同之处在于,PSGTR使用一组查询直接对三元组建模,而PSGFormer通过两组查询对对象和关系进行建模。每种方法都各有优缺点,具体可以参考论文中的实验结果。结论分享大多数对SGG任务有效的方法对PSG任务仍然有效。然而,一些在数据集上使用强统计先验或在主谓宾中谓词方向上使用先验的方法可能不那么有效。这可能是因为PSG数据集的偏差没有传统的VG数据集严重,谓词动词的定义更清晰易学。因此,作者希望后续的方法将重点放在视觉信息的提取和图片本身的理解上。统计先验可能对笔刷数据集有效,但不是必需的。与两阶段模型相比,单阶段模型目前可以取得更好的效果。这可能是由于单阶段模型关于关系的监督信号可以直接传递到featuremap端,使关系信号参与更多的模型学习,有利于关系的捕捉.但是,由于本文只提出了几个基线模型,并没有调优单阶段或两阶段模型,所以不能说单阶段模型就一定比两阶段模型强。也希望选手们继续探索。与传统的SGG任务相比,PSG任务基于全景分割图进行关系配对,需要确认每个关系中主要对象的id。与全景分割图的两阶段直接预测完成物体id划分相比,单阶段模型需要通过一系列后处理来完成这一步。如果对现有的单阶段模型进一步完善升级,如何更有效地完成单阶段模型中物体ID的确认,生成更好的全景分割图,仍然是一个值得探讨的课题。最后,欢迎大家尝试HuggingFace:Demo:https://huggingface.co/spaces/ECCV2022/PSG图像生成的前景最近流行的基于文本输入的生成模型(比如DALL-E2)确实很神奇,但是还有研究表明,这些生成模型可能只是将文本中的几个实体粘合在一起,甚至没有理解文本中表达的空间关系。如下图,虽然输入是“杯子在勺子上”,但生成的图片依然是“勺子在杯子里”。恰好PSG数据集标注了基于mask的场景图关系。作者可以将场景图和全景分割mask作为训练对得到一个text2mask模型,基于mask生成更详细的图片。因此,PSG数据集也可能为以关系为中心的图像生成提供潜在的解决方案。附言旨在鼓励业界共同探索综合场景识别的“PSG挑战赛”火热进行中,百万大奖等你来拿!比赛链接:https://www.cvmart.net/race/10349/base