当前位置: 首页 > 科技观察

谷歌中国工程师提出颠覆性算法模型,Waymo实测提高预测准确度

时间:2023-03-22 02:01:35 科技观察

“接下来几秒周围的车辆和行人会做什么?”要实现安全的自动驾驶,这是必须回答的关键问题,也是自动驾驶领域的行为预测问题。自动驾驶公司ChrisUrmson去年接受采访时表示,感知和预测能力是关键。如果有一个模型可以预测接下来5秒内会发生什么,将大大加速自动驾驶的发展。行为预测的难点在于周围行人、车辆和各种规则之外的行为的不确定性。这些情况很难有把握地预测,只有通过训练数据分析各种行为的可能性,才能达到更合理的预测效果。另一个难点是盲点和遮挡的问题。面对这种情况,人类驾驶员通常会根据自己的驾驶经验对周围信息产生预期。这个实证练习表明,行为预测是基于对环境的认识和理解。对此,来自Waymo和谷歌的中国工程师团队提出了新模型VectorNet。在这个模型中,团队首次提出了一种抽象周围环境信息的方法:使用向量(Vector)来简化地图信息和移动物体的表达。有减少数据量和计算量的效果。该模型在向量化的基础上,增加了所有向量之间的语义关系,使机器(自动驾驶车辆)不仅可以看到环境信息,还可以进一步理解环境中不同元素之间的关系。在自动驾驶的背景下,了解元素之间的关系有助于行为预测。在实际测试中,该模型的行为预测准确率较现有方法提升近20%,同时内存占用和计算量降低约80%。目前,该论文已被计算机视觉领域三大国际顶级会议之一的CVPR录用,而Waymo也在其博文中明确表示,这项技术提高了其行为预测的准确性。抽象地“认识”世界正如Waymo在博客中指出的那样,这项研究的突破性意义在于首次提出用向量来抽象地表达世界。以无人车为例,周围的环境信息大致可以分为两类。一是地图特征,包括车道线、斑马线、红绿灯、限速标志、停车标志等道路固有元素;第二类是无人驾驶车辆周围物体的轨迹。VectorNet论文中提到,在用向量表示的方法中,向量本身可以输入各种信息。其中包括:1.向量的起始位置;2.向量的结束位置;3、矢量对应的道路元素,如车道线、红色路灯等;4.向量对应的元素的属性,比如限速标志要求的速度大小,红绿灯会表示车辆的前进和停止。这四种信息对应不同的信息和功能。当收集到这些信息后,工程师可以通过这种向量的方法将整个周围环境抽象成许多向量的组合,实现在机器中对周围环境的捕捉和重构。据了解,为了表达周围环境的信息和物体,业界以往普遍的做法是将车道线等地图信息和车辆等移动物体渲染(render)在光栅图形(Rastergraphics)上,然后通过卷积神经网络(CNN)进行建模,进而实现行为预测等后续操作。但缺点是将对象渲染成图片是一个计算量非常大的过程。另外,原机只需要表达少量的周围物体,本身数据量很小,但渲染成图片后,数据量大幅增加。因此,可以说传统的将物体渲染到图片上的方法在时间和空间上是一种低效的方式。此外,卷积神经网络在预测自动驾驶行为方面存在根本局限性。由于行为预测通常需要捕捉长距离道路的几何特征,因此卷积神经网络不适用于长距离道路信息。卷积神经网络依赖于3×3、5×5等卷积核(kernels)进行计算,这意味着这种方法可以很好地捕获局部环境信息,但车道线等长条状环境信息往往贯穿整个图片,所以一个小的卷积核没有足够的感受野来捕捉整条车道线的几何特征。论文中提到卷积感受野对预测质量至关重要。测试表明,更大的卷积核可以提高无人车行为预测的结果,但代价也很大:计算成本会进一步增加。在VectorNet模型的方法下,不需要将环境信息渲染成图片,而是用抽象和简化的矢量形式来表达。这样一来,模型和数据量都大大减少,模型的计算速度可以比卷积神经网络更快。震级。因此,VectorNet在实际应用中具有很强的实用性,可以提高Waymo自动驾驶测试的行为预测精度。一位业内人士表示,“我认为过去学术界更多的工作是放在预测模型上,但这些工作忽略了一个基本问题——目前的输入表示还没有做好。现在大家都是通过渲染+卷积神经网络来做inputrepresentation,然后在此基础上做出不同的预测模型进行轨迹预测。因此,当输入表示本身仍然存在严重问题时,很难说预测模型的设计是有效的。该声明还强调,该模型最大的贡献是提出了“如何表示地图以及如何使用神经网络学习地图内容”的新模型。让机器“理解”世界,抽象地表达世界只是VectorNet模型的第一步。一步,有了矢量图之后,理解不同元素之间的联系,学习元素之间的语义信息,就变成了更可行的一步,最终机器学习可以实现从“看世界”到“理解世界”的目标。发展。在此之前,卷积神经网络擅长编码位置关系,但难以学习多个元素之间的连接关系。相比之下,图神经网络(GraphNeuralNetwork)关注的是连接关系,而不关注空间位置关系。在网络结构中,普通的图神经网络非常擅长学习线和节点之间的语义关系,但是无法学习节点之间的位置关系,这也是图神经网络最大的问题。问题。对于自动驾驶所依赖的地图信息,周围元素之间的位置信息和语义信息非常重要。一方面,需要准确表达车辆、车道线、红绿灯等要素的位置信息;同时,在复杂的交通场景中,车辆和其他物体的运动状态受到各种因素的影响,如红绿灯、道路交通法规等,周围物体的运动也会影响车辆的行驶决策。这就是元素之间的语义关系。更多要很好地预测周围车辆的行为,了解语义信息非常重要。该团队在用向量表达周围信息的基础上,提出了层次图神经网络(hierarchicalgraphneuralnetwork),在所有向量之间建立语义链接,使得所有元素在地图上的位置信息和语义元素之间的信息被同时放入模型中。这相当于在前期人为地告诉模型,周围所有的元素都可能影响车辆的运动行为决策,而在后续的学习中,模型可以自动学习到众多元素中哪些元素会影响车辆的行驶,以及不同元素之间的影响程度。据Waymo在博客中介绍,与目前广泛使用的ResNet相比,VectorNet在预测准确率上提升了18%。更重要的是,它在进行行为预测时只占用ResNet29%的内存,计算量仅为后者的20%。图|测试结果对比另外,对周围环境理解的加深也可以让机器在学习上获得类似于人类驾驶员的体验,学习不同元素之间的语义关系可以对周围可能发生的事情进行推断环境。例如,当路边的停车标志不小心被挡住时,人类司机可以根据以往的经验猜测标志的内容。在VectorNet的训练中,随机遮挡一些地图特征可以进一步提高VectorNet的预测能力。根据以往的学习经验,可以更好地推测缺失的地图信息,最终在必要时及时做出反应。事实上,在后续的训练中,VectorNet已经通过学习形成了一套“注意力机制”。论文中给出的例子表明,当自动驾驶车辆在移动和变道时,机器已经识别出当前车道和目标车道。以上信息更需要注意。这说明模型对周围的环境信息有了更进一步的“理解”,进而表明了模型的可解释性。图|论文作者团队,从左到右分别是赵星、孙晨、高继阳。该论文的作者团队来自谷歌和Waymo。其中,高继洋现任Waymo高级软件工程师,本科毕业于清华大学,2018年获得南加州大学电气工程博士学位;赵星毕业于浙江大学,获学士学位,后获得麻省理工学院硕士和博士学位,目前在Waymo担任研究员;孙晨也曾就读于清华大学本科,后毕业于南加州大学,获博士学位。2015年,目前在谷歌担任研究员。