本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处.疫情当下,Waymo等自动驾驶厂商暂时无法在现实世界的公共道路上进行训练和测试。不过工程师们也可以在模拟环境下继续GTA中的跑车(划掉),啊不,模拟环境中的场景、对象和传感器反馈通常使用游戏引擎创建,例如UnrealEngine或Unity。为了实现激光雷达等传感器的逼真建模,需要大量的人工操作,获取足够多的复杂数据需要付出很大的努力。数据不够,无人车标杆Waymo决定用GAN来弥补。这种名为SurfelGAN的GAN可以根据自动驾驶汽车收集的有限激光雷达和摄像头数据生成逼真的摄像头图像。用GAN生成的数据进行训练或训练自动驾驶汽车是否可靠?SurfelGAN那么首先,让我们来看看SurfelGAN是如何制作的。主要有两个步骤:首先,扫描目标环境,重建一个由大量纹理表面元素(Surfel)组成的场景。然后,使用相机轨迹渲染表面元素,执行语义和实例分割。接下来,由GAN生成逼真的相机图像。表面元素场景重建为了忠实地保留传感器信息,同时在计算和存储方面保持高效,研究人员提出了纹理增强的表面元素映射表示。面元(简称Surfel)适用于动态几何建模。物体由一组具有光照信息的密集点或表面元素表示。研究人员将激光雷达扫描捕获的体素转换为彩色表面元素,并将它们离散化为k×k网格。由于不同的光照条件和相机相对姿态(距离和视角)的变化,每个表面元素在不同的帧中可能具有不同的外观。由网格组成的密码本,用于增强表面元素表示。在渲染阶段,该方法根据相机姿势决定使用哪个k×k块。图中第二行是该方法最终的渲染效果。可以看出,与第一行的基线方法相比,纹理增强的表面元素图去除了很多伪影,第三行更接近真实图像。为了处理车辆等动态对象,SurfelGAN还使用了来自Waymo开放数据集的注释。目标物体的激光雷达扫描数据被累积起来,这样车辆和行人的重建就可以在模拟环境中的任意位置进行。以上步骤是通过SurfelGAN合成图像完成的,但是模拟的场景仍然存在几何和纹理不完善的问题。这时候GAN模块就派上用场了。训练设置两个对称的encoder-decoder生成器,GS→I从Sufel图像到真实图像,GI→S依次从真实图像到Sufel图像。还有两个鉴别器,一个用于Sufel域,一个用于真实域。上图中,绿线代表监督重建损失,红线代表对抗性损失,蓝/黄线代表循环一致性损失。输入数据包括配对和未配对的数据。其中,未配对的数据用于实现两个目的:提高判别器的泛化性能;通过强制循环一致性来调节发电机。此外,由于面元图像的覆盖范围有限,渲染后的图像包含大面积的未知区域,而且相机与面元之间的距离也引入了另一个不确定因素,研究人员采用了距离加权损失稳定GAN的训练。具体来说,在数据预处理过程中,首先生成距离图,然后利用距离信息作为加权稀疏度来调整重建损失。实验结果最后,它的有效性如何取决于实验结果。研究人员基于Waymo开放数据集(WOD)进行了实验。该数据集包括798个训练序列和202个验证序列。每个序列包含20秒的相机数据和激光雷达数据。此外,它还包含了WOD中车辆和行人的真实标注。他们还从WOD中导出了一个新的数据集——WaymoOpenDataset-NovelView。在这个数据集中,研究人员基于相机扰动姿势,为原始数据集中的每一帧创建了新的表面元素渲染图。此外,还有9800个100帧的短序列用于真实图像的pair-free训练。和双相机姿势数据集(DCP),用于测试模型的真实性。可以看出,在检测器的识别下,SurfelGAN生成的最高质量图像将AP@50从52.1%提升到了62.0%,相当于真实图像的61.9%。Waymo认为这样的结果为未来的动态对象建模和视频生成模拟系统提供了坚实的基础。中文论文的第一作者是Waymo的中国实习生杨振培,他于2019年6月至8月在Waymo完成了研究。杨振培毕业于清华大学自动化系,目前正在攻读博士学位。在德克萨斯大学奥斯汀分校。研究方向为3D视觉与深度学习。Waymo首席科学家DragomirAnguelov也是该论文的作者之一。
