前天,第N次当众diss激光雷达的马斯克,再次让自动驾驶圈对了不同的传感器应用无人车的解决方案一直被热议。其实从马斯克的角度来看,我们不难理解他对激光雷达的“厌恶心理”。毕竟,特斯拉是一家面向普通消费者销售汽车的公司,而不是一家销售自动驾驶技术和解决方案的公司。至少3年内,无论是成本、技术可靠性、安全性、美观性,甚至是用户对自动驾驶的信任度和品味,大部分车企都不会将激光雷达纳入量产车型范畴。当然,从马斯克说话时经常打脸的经典表现来看,说不定再过几年他就会站出来反驳自己的观点。事实上,关于“激光雷达是否应该用于自动驾驶汽车”的长期争论催生了“激光雷达学派”和“纯计算机视觉学派”。目前,激光雷达学派和公众普遍接受的一种观点是,考虑到纯视觉算法缺乏数据形式和准确性,L3以上的自动驾驶乘用车必须使用激光雷达。当然,从谷歌Waymo、通用Cruise,到百度Apollo以及国内的小马智行、文远知行等号称L4级自动驾驶乘用车解决方案的公司,车顶的激光雷达一直都非常抢眼。“计算机视觉派”的一个重要组成部分是自动驾驶技术解决方案初创公司,但这个解决方案的水平到底有多高,目前还没有定论。通常情况下,“昂贵的成本”和“技术能力”是很多车企和计算机视觉技术公司反对采用激光雷达的主要原因。比如,作为一家专注于摄像头解决方案的科技初创公司,AutoX在2017年的“秀场亮相”,就是让一辆仅配备7个摄像头的林肯MKZ跑在普通道路的车道上。虽然后来遭到了激光雷达派的“反扑”,但其创始人兼CEO肖建雄一直坚持基于摄像头的传感器方案。此外,一些高精地图初创公司也基于成本强调使用低成本相机。该方案收集高精度数据。综合来看,虽然目前自动驾驶圈内最主流的观点是“该有的,一个都不能漏”,但不难看出,对于车厂的业务,对于计算机视觉公司来说,暂时搁置激光雷达是个好主意;另一方面,对于计算机视觉工程师来说,如果想在高级别自动驾驶解决方案中摆脱激光雷达,就必须继续研究和验证纯视觉技术替代激光雷达的可行性。因此,在大家还在看“马斯克骂激光雷达”的时候,我们想从机器之心擅长的角度出发,看看能否从技术上“验证”这个看似不靠谱的观点。巧合的是,我们找到了康奈尔大学的一篇技术论文,作者王艳和赵伟伦都是中国人。本文提出了一种新方法来缩小纯视觉技术架构与LiDAR之间的性能差距。本文提出的方法改变了立体相机目标检测系统的三维信息呈现形式,甚至称之为——伪激光雷达数据(pseudo-LiDAR)。研究人员在挡风玻璃的每一侧都使用了一个相对便宜的摄像头,他们的新方法以一小部分成本在物体检测性能方面接近了激光雷达。研究人员发现,从鸟瞰图而不是正面图分析相机图像可将物体检测精度提高2倍,从而使立体相机成为激光雷达的可行且成本低得多的替代品。研究主题可靠且稳健的3D对象检测是自动驾驶系统的基本要求。为了避免与行人、骑自行车的人和汽车发生碰撞,自动驾驶汽车必须首先检测到它们。现有算法严重依赖LiDAR,它提供周围环境的精确3D点云。尽管激光雷达精度高,但自动驾驶行业迫切需要激光雷达的替代品,原因如下:一是激光雷达非常昂贵,给自动驾驶硬件增加了很多开销;其次,过度依赖单个传感器会带来安全风险,最好在一个传感器出现故障时使用备用传感器。一个自然的选择是来自立体相机或单目相机的图像。光学相机具有成本效益(比激光雷达便宜很多数量级),可以以高帧率运行,并且可以提供密集的深度图,而激光雷达信号只有64或128个稀疏旋转激光束。最近的几项研究探索了单目相机和立体深度(视差)估计在3D对象检测中的使用[19,13,32]。然而,到目前为止的主要结果仍然是对激光雷达方法的补充。例如,KITTI基准测试[17]上的一种算法使用传感器融合将汽车的3D平均精度(AP)从激光雷达的66%提高到激光雷达+单目图像的73%。在只使用图像的算法中,目前最好的算法AP只有10%[30]。对后者性能不佳的一个直观和流行的解释是基于图像的深度估计精度低。与激光雷达相反,立体深度估计的误差随深度呈二阶增长。然而,激光雷达和立体深度估计器生成的3D点云的视觉比较揭示了两种数据模式之间的高质量匹配,即使对于远处的物体也是如此(详见图1)。图1图1:来自视觉深度估计的伪LiDAR信号。左上角:KITTI街景图像,其中汽车周围的红色边界框是通过LiDAR获取的,绿色边界框是通过伪LiDAR获取的。左下:估计的视差图。右图:伪激光雷达与激光雷达。其中伪激光雷达点与激光雷达点很好地对齐。解决方案这篇论文提供了另一种解释——研究人员假设立体相机和激光雷达之间性能差距的主要原因不是深度精度的差异,而是运行在立体相机上的ConvNet3D对象检测系统对信息的3D表示。具体来说,激光雷达信号通常表示为3D点云或“鸟瞰”视图,并进行相应处理。在这两种情况下,目标的形状和大小都不会随深度而变化。而基于图像的深度估计主要是针对每个像素,通常表示为一个额外的图像通道,使得远处的物体很小且难以检测。更糟糕的是,这种表示的像素邻居聚集在一起,指向3D空间中更远的区域,这使得ConvNets更难在这些通道上执行2D卷积来推理和准确定位3D空间中的点。对象。为了验证这一论断,本研究介绍了一种用于从立体相机检测3D对象的两步法。首先,将立体相机或单目相机的估计深度图转换为3D点云,即模拟激光雷达信号的伪激光雷达;训练是在伪激光雷达表示上进行的。通过改变伪激光雷达的3D深度表示,基于图像的3D目标检测算法可以实现精度的大幅提高。具体来说,在KITTI基准测试中实现0.7交并比(IoU)的汽车实例在验证集上实现了37.9%的3DAP,比之前的图像方法提高了2倍。这将使基于立体相机和基于激光雷达的系统之间的差距减半。图2图2:用于3D对象检测的两步管道。给定立体或单目相机图像,研究人员首先预测深度图,然后将其转换为激光雷达坐标系中的3D点云,即伪激光雷达。然后将其视为激光雷达,因此可以在其上使用任何基于激光雷达的3D检测算法。研究人员评估了立体深度估计和3D对象检测算法的各种组合,并获得了非常一致的结果。这表明改进的性能是由于使用了伪激光雷达表示,它较少依赖3D对象检测架构或深度估计技术的创新。总之,本文做出了以下贡献:首先,通过实验证明,基于立体相机和基于激光雷达的3D物体检测技术之间的性能差异不是由于估计深度的质量,而是由于表示。其次,研究人员提出了一种用于3D物体检测估计的新型深度表示——伪激光雷达——将之前的性能提高了2倍,达到了最先进的水平。研究结果表明,在自动驾驶汽车中使用立体摄像头是可能的,这可以大大降低成本并提高安全性能。论文:Pseudo-LiDARfromVisualDepthEstimation:BridgingtheGapin3DObjectDetectionforAutonomousDriving论文链接:https://arxiv.org/abs/1812.07179摘要:3D物体检测是自动驾驶的一项重要任务。如果使用准确但昂贵的激光雷达获得3D输入数据,则当前技术可以实现高度准确的检测率。基于成本较低的单目或立体相机图像数据的方法目前能够实现较低的精度,这一差距通常归因于基于图像的深度估计的技术缺陷。然而,在本文中,研究人员认为数据表示(而不是其质量)是造成这种差距的主要原因。考虑到卷积神经网络的内部工作原理,研究人员建议将基于图像的深度图转换为伪激光雷达表示——本质上是模拟激光雷达信号。通过这种表示,我们可以应用目前基于激光雷达的各种检测算法。在流行的KITTI基准测试中,论文提出的方法在基于图像的性能上取得了令人印象深刻的改进,超越了当前最先进的方法,将30米以内的目标检测精度从当前最先进的方法提高了22%增加到74%。截至提交之时,所提出的算法在基于立体图像的方法的KITTI3D对象检测排行榜上达到了当前最先进的水平。实验研究人员通过不同的深度估计和物体检测算法评估了在不同设置下使用和不使用伪激光雷达的3D物体检测结果(见下表)。假激光雷达的结果以蓝色显示,真实激光雷达的结果以灰色显示。表1表1:3D对象检测结果。该表显示了汽车分类的AP_BEV/AP_3D百分比,对应于鸟瞰图和3D对象框检测的平均精度。表4表4:行人和骑自行车者类别的3D对象检测结果。我们在IoU=0.5(标准指标)时报告AP_BEV/AP_3D,并将PSMNET(蓝色)估计的伪激光雷达与激光雷达(灰色)进行比较,两者均使用F-POINTNET算法。图4图4:定性比较。研究人员使用AVOD算法比较了激光雷达、伪激光雷达和前视图(立体)。Groundtruth在红色框中,预测框在绿色中;假激光雷达图像(下排)中的观察者正在向最左侧的右侧看。前视图法(右)甚至错误计算了附近物体的深度,完全忽略了远处的物体。参考链接:https://arxiv.org/abs/1812.07179https://www.sciencedaily.com/releases/2019/04/190423145508.htm【本文为机器之心专栏原文翻译,微信公众号《机器之心(id:almosthuman2014)》】点此阅读作者更多好文
