当前位置: 首页 > 科技观察

Graph-DETR3D- 在多视角3D目标检测中对重叠区域再思考

时间:2023-03-12 16:41:43 科技观察

Graph-DETR3D:重新思考多视图3D对象检测工作中的重叠区域。从多个图像视图中检测3-D对象是视觉场景理解的一项基本但具有挑战性的任务。由于其低成本和高效率,多视图3-D对象检测显示出有前途的应用。然而,由于缺乏深度信息,很难从3-D空间的透视图中准确检测物体。最近,DETR3D引入了一种新的3D-2D查询范式,用于聚合多视图图像以进行3D对象检测,并实现了最先进的性能。在本文中,通过密集的引导实验,我们量化了位于不同区域的对象,发现“截断实例”(即每个图像的边界区域)是阻碍DETR3D性能的主要瓶颈。尽管合并了重叠区域中两个相邻视图的多个特征,DETR3D仍然存在特征聚合不足的问题,因此错过了充分提高检测性能的机会。为了解决这个问题,Graph-DETR3D被提出来通过图结构学习(GSL)自动聚合多视图图像信息。在每个对象查询和2-D特征映射之间构建动态3D映射,以增强对象表示,尤其是在边界区域中。此外,Graph-DETR3D受益于一种新颖的深度不变多尺度训练策略,该策略通过同时缩放图像大小和目标深度来保持视觉深度的一致性。Graph-DETR3D的不同点在于两点,如图:(1)动态图特征的聚合模块;(2)深度不变的多尺度训练策略。它遵循DETR3D的基本结构,由三个部分组成:图像编码器、变换器解码器和目标预测头。给定一组图像I={I1,I2,...,IK}(由N个周界摄像机拍摄),Graph-DETR3D旨在预测感兴趣的边界框的定位和类别。首先使用图像编码器(包括ResNet和FPN)将这些图像转换为一组关于L个特征图级别的特征F。然后,构建动态3-D图以通过动态图特征聚合(DGFA)模块广泛聚合2-D信息,以优化目标查询的表示。最后,使用增强的目标查询输出最终预测。DynamicGraphFeatureAggregation(DFGA)过程如图所示:首先为每个目标query构造一个可学习的3-D图,然后从2-D图像平面中采样特征。最后,目标查询的表示通过图形连接得到增强。这种互连的消息传播方案支持用于图结构构建和特征增强的迭代细化方案。多尺度训练是2D和3D目标检测任务中常用的数据增强策略,已被证明有效且推理成本低。然而,它很少出现在基于视觉的3-D检测方法中。考虑到不同的输入图像大小可以提高模型的鲁棒性,同时调整图像大小和修改相机内部参数以实现通用的多尺度训练策略。一个有趣的现象是最终性能急剧下降。通过仔细分析输入数据,我们发现简单地重新缩放图像会导致透视多义问题:当对象被调整到更大/更小的比例时,它的绝对属性(即对象的大小,到自我的距离点)不要改变。作为一个具体的例子,这种歧义问题如图1所示:虽然(a)和(b)中所选区域的绝对3D位置相同,但图像像素数不同。深度预测网络倾向于根据图像的足迹来估计深度。因此,图中的这种训练模式可能会混淆深度预测模型并进一步恶化最终性能。为此,从像素角度重新计算深度。算法伪代码如下:下面是解码操作:重新计算的像素大小为:假设比例因子r=rx=ry,则简化结果如下:实验结果如下:注:DI=深度不变