昨日,CVPR2017获奖论文出炉,引起业界高度关注。但是除了这些获奖论文之外,还有很多优秀的论文值得一读。因此,在大会期间,国内自动驾驶初创公司Momenta和机器之心推出了CVPR2017精彩论文解读专栏。本文是本系列专栏的第一篇。作者为Momenta高级研发工程师贾思博。论文:DeepMANTA:ACoarse-to-fineMany-TaskNetworkforjoint2Dand3Dvehicleanalysisfrommonocularimage本文主要处理单目图像中的车辆检测问题。车辆检测是经典的基于图像的目标检测问题,也是智能驾驶感知过程中的核心问题之一。现有的多种目标检测框架如FasterRCNN、YOLO等可以很好地处理一般的目标检测问题,但是应用到车辆检测中仍然存在两个主要痛点:(1)现有的目标检测算法在平均准确率(AP)可以达到更高的精度,但是目标边界框的定位精度不够,这对车辆检测的进一步分析有重要作用;(2)目标检测局限于图像空间,缺乏高效的算法预测车辆在真实3D空间中的位置和姿态。针对以上问题,作者在本文中提出了一种基于单目图像检测车辆并预测3D信息的框架。文中对一个3D车辆目标的描述包括:车辆包围的立方体的位置坐标、各部件(如轮子、灯等)的3D坐标、能见度、目标方向的旋转角度地平面,以及车辆自身的3D尺寸。下图是车辆建模示意图。论文预测车辆自身的3D尺寸,从标记的3D模型库中找到最接近的3D模型,进一步根据预测的部件2D坐标和3D模型坐标进行PnP匹配,得到车辆的3D位置和姿态。机动车。论文中使用的网络结构基于FasterRCNN框架。新训练方法最突出的特点如下:(1)网络不仅预测车辆边界框,还预测车辆部件坐标、部件可见性和车辆尺寸等丰富信息;(2)网络使用级联结构(cascade)对上述信息进行预测,在共享底层特征图的同时提供足够的拟合能力预测多种信息,并反复返回边界框提高定位精度;(3)网络推理(inference)时利用上述预测信息进行2D/3D匹配,得到车辆的3D姿态和位置信息。训练/推理过程的流程图如下图所示。此外,论文还提出了一种适用于该训练框架的标注方法。只需在3D空间标注车辆的3D边界框,程序即可自动从3D模型库中寻找尺寸最接近的模型,并根据姿态信息自动生成组件坐标。,部分可见性。这种标记方案对于具有3D信息的KITTI等数据集很方便。文章使用了103个标准车辆3D模型,每个模型包含36个零件坐标信息。网络基础设施使用GoogleNet和VGG16,具体训练参数详见文章第5节。该模型在KITTI的车辆检测、角度回归、3D定位任务中均达到领先水平,验证了该方法的有效性。问答1。如何平衡多任务网络中各任务的损失,如何利用组件可见性的任务?A:使用经验值lossweight=1除了组件坐标,组件坐标尝试lossweight=3效果更好。零件可见性主要用于辅助网络学习零件坐标信息,不用于推理。另外,返回组件坐标时,对不可见组件的关键点不做损失,对可见组件的关键点给予N_total/N_visible的损失,即关键点总数越大比可见关键点的数量,论文原文中没有提到。2、在对不同车型进行分类时,为什么要回归到Templatesimilarity,即车辆尺寸与各个车型的比值,而不是直接回归到车辆尺寸?如果有相同尺寸的不同型号怎么办?A:使用Templatesimilarity是一种方便的提供归一化的方法,如果直接回归size的话,不同模型的scale差别很大,效果不好。Caltech模型库中确实可以有相同大小的,但是从训练结果来看并没有造成明显的问题。3、关于作者提出的“弱标注法”,如何标注车辆的3D框?A:KITTI数据集包含了车辆的3Dgroundtruth,所以可以直接生成3D帧数据,不需要额外标注。对于真实环境中的数据,笔者正在尝试解决,暂时还没有更有效的解决方案。【本文为栏目组织《机器之心》原创文章,微信公众号《机器之心(id:almosthuman2014)》】点此查看作者更多好文
