当前位置: 首页 > 科技观察

自动驾驶汽车无法避开它们没见过的物体?问题出在trainingpipeline上

时间:2023-03-21 20:23:59 科技观察

本文转载自雷锋网。如需转载,请到雷锋网官网申请授权。人类经常会遇到新奇的工具、食物或动物,虽然以前从未见过,但人类仍然可以确定这些是新的物体。与人类不同,当前最先进的检测和分割方法难以识别新型对象,因为它们是在封闭世界环境中设计的。他们被训练来定位已知种类(标记)的对象,同时将未知种类(未标记)的对象视为背景。这导致模型无法定位新对象并学习一般对象的属性。波士顿大学、加州大学伯克利分校、麻省理工学院-IBM沃森人工智能实验室研究团队最近的一项研究提出了一种检测和分割新型对象的简单方法。原文链接:https://arxiv.org/pdf/2112.01698v1.pdf为了应对这一挑战,研究团队创建了一个数据集,该数据集详尽地标记了每张图像中的每个对象。但是,创建此类数据集的成本非常高。如下图所示,事实上,许多用于对象检测和实例分割的公共数据集并没有完全标注图像中的所有对象。图1.标准对象检测器训练中的问题。本例来自COCO,彩色框为标注框,白色虚线框为潜在背景区域。许多白色虚线区域实际上定位了对象,但在传统对象检测器训练中被视为背景,抑制了新对象的目标属性。1问题背景无法学习通用目标属性会在许多应用场景中暴露出各种问题。例如,具身人工智能,在机器人和自动驾驶场景中,需要在训练过程中定位看不见的物体;自动驾驶系统需要检测车辆前方的新物体以避免交通事故。此外,零样本和少样本检测必须定位在训练期间未标记的对象。开放世界实例分割旨在定位和分割新对象,但最先进的模型表现不佳。研究团队发现,当前最先进的模型性能不尽如人意的原因在于训练管道,所有与标记的前景物体重叠不多的区域都将被视为背景。如图1所示,虽然背景中有可见但未标记的对象,但模型的训练管道使得无法检测到这些对象,这也导致模型无法学习一般对象属性。为了解决这个问题,Kim等人。建议学习区域提案的本地化质量,而不是将它们分为前景和背景。他们的方法是对接近groundtruth的objectproposals进行采样,并学习估计相应的定位质量。在缓解一些问题的同时,这种方法除了需要仔细设置正/负采样的重叠阈值之外,还有可能使潜在对象超过目标属性。2方法为了改进开放集的实例分割,研究团队提出了一个简单而强大的学习框架,以及一种新的数据增强方法,称为“LearningtoDetectEveryThing”(LDET)。为了消除抑制潜在物体的目标属性的问题,研究团队使用遮罩标记复制前景物体并将其粘贴到背景图像上。前景图像是通过调整裁剪的补丁合成的。通过保持裁剪的小块,合成图像不太可能包含任何隐藏的对象。然而,由于背景是由合成图像创建的,这使得它看起来与真实图像有很大不同,例如,背景可能只包含低频内容。因此,在此类图像上训练的检测器几乎从未表现得很好。为了克服这个限制,研究团队将训练分为两部分:1)用合成图像训练背景和前景区域分类和定位头;2)用真实图像学习面具头像。图2.我们的增强策略通过提高小区域作为背景的比例来创建不含潜在对象的图像。图3.原始输入(左)和合成图像(右)。遮罩区域用颜色标出,并用一小块区域作为背景,避免隐藏物体在背景中。在某些情况下,背景补丁只是定位前景对象(左列第二行)。请注意,这种情况很少见,并且可以看到补丁明显放大了。在训练分类头时,由于在合成图像时已经去除了潜在物体,因此潜在物体被认为是背景的机会变得很小。此外,maskinghead被训练用于在真实图像中进行实例分割,因此主干系统学习能够在真实图像中分离前景和背景区域的一般表示。也许这看起来是一个很小的变化,但是LDET在开放世界实例分割和检测上的表现非常出色。在COCO上,在VOC类别上训练的LDET在评估非VOC类别时将平均召回率提高了14.1分。令人惊讶的是,LDET在没有额外标记的情况下检测新对象方面有显着改进,例如,当LDET在COCO中仅对VOC类别(20个类别)进行训练时评估UVO上的平均召回率,超过在所有COCO类别(80个类别)上训练的MaskR-CNN类)。如图2所示,LDET可以生成准确的objectproposals,也可以覆盖场景中的很多物体。图4.开放世界中的实例分割。MaskR-CNN(顶部)检测到的对象比本文研究的方法(底部)少。在此任务中,无论训练类别如何,模型都必须定位和分割图像中的所有对象。图中的两个检测器都在COCO上训练并在UVO上测试。在新的数据增强方法和训练方案的帮助下,我们的检测器准确定位了许多在COCO中未标记的对象。图5.训练过程。给定原始输入图像和合成图像,根据在原始图像上计算的掩码损失和分类以及在合成图像上的回归损失来训练检测器。本文的贡献总结如下:提出了一个简单的框架LDET,它由新的数据增强和开放世界实例分割的解耦训练组成。我们证明了我们的数据增强和解耦训练对于在开放世界实例分割中实现良好性能至关重要。LDET在所有设置中都优于最先进的方法,包括COCO的跨类别设置和COCO-to-UVO和Cityscape-to-Mapillary的跨数据集设置。3实验结果研究团队在开放世界实例分割的跨类别和跨数据集上评估LDET。跨类别设置基于COCO数据集,将标记分为已知类和未知类,在已知类上训练模型,评估在未知类上的检测/分割性能。由于模型可能被放置在新的环境中并遇到新的实例,因此跨数据集设置也评估了模型泛化到新数据集的能力。为此,分别使用COCO或Cityscapes作为训练源,分别使用UVO和MappilaryVista作为测试数据集。在这项工作中,平均精度(AP)和平均召回率(AR)被用作性能评估标准。除非另有说明,否则评估以非分级方式进行。AR和AP按照COCO评估协议计算,AP或AR最多有100个检测值。表1.VOC→Non-VOC在COCO中的泛化结果。表中最后一行的蓝色部分是MaskR-CNN的改进。LDET超越了所有基线,并显示出对MaskR-CNN的巨大改进。图6.COCO数据集中VOC到非VOC的可视化。上图:MaskR-CNN,下图:LDET。请注意,训练类别不包括长颈鹿、垃圾箱、钢笔、风筝和花车。LDET可以比MaskR-CNN更好地检测许多新对象。表2.VOC→Non-VOC数据和训练方法的消融研究。最后一行是本文提出的框架。表3.类不可知训练的消融研究。类无关训练略微提高了LDET和MaskR-CNN的性能。图7.基线掩码R-CNN对标记实例过度拟合。因此,随着训练的进行,它检测新物体的性能会下降。相比之下,本文的方法基本上通过训练提高了性能。表4.与在COCO上测试的无监督方法和DeepMask的比较。需要注意的是,DeepMask使用VGG作为主干。LDET和DeepMask是在VOC-COCO上训练的。表5.更改背景区域的大小。2-m表示裁剪输入图像的宽度和高度为2-m的背景区域。从较小的区域采样背景往往会增加AR并降低AP。表6.ResNet50和ResNet101的比较。ResNet101往往比ResNet50表现更好,这在LDET中更为明显。表7.regionproposalnetwork和regionofinteresthead的比较。边界框的AP和AR。图8.COCO实验中目标属性图(RPN分数)的可视化。LDET捕获各种类别的对象,而MaskR-CNN倾向于抑制许多对象。表8.COCO→UVO泛化的结果。上图:在VOC-COCO上训练的模型,下图:在COCO上训练的模型。与基线相比,LDET在所有情况下都表现出更高的AP和AR。图9.在COCO上训练的模型结果的可视化。上图:MaskR-CNN,下图:LDET。最左边两张图来自UVO,其他两张来自COCO验证图。表9.Cityscapes→MappilaryVista的总结结果。LDET对自动驾驶数据集有效。AR0.5表示AR,IoU阈值=0.5。