当前位置: 首页 > 科技观察

为什么自动驾驶汽车不需要激光雷达_0

时间:2023-03-13 18:57:04 科技观察

【.com快译】研发生产自动驾驶汽车需要哪些技术?制造商和研究机构对这个问题的回答存在一些分歧。自动驾驶的方法范围从相机和计算机视觉的组合到计算机视觉和高级传感器的组合。长期以来,特斯拉一直是基于视觉的自动驾驶方法的支持者,在今年的计算机视觉和模式识别(CVPR)会议上,该公司首席人工智能科学家AndrejKarpathy解释了这种方法的基本原理。在CVPR2021自动驾驶技术研讨会上,领导特斯拉自动驾驶技术开发的Karpathy详细介绍了该公司如何开发出只需要视频输入就能了解汽车周围环境的深度学习系统。它的技术使用视觉神经网络非常准确地估计汽车之间的距离、速度和加速度。必要的技术包括:庞大的舰队数据引擎、强大的人工智能团队和超级计算机。他还解释了为什么特斯拉在实现基于视觉的自动驾驶汽车方面处于行业领先地位。通用计算机视觉系统深度神经网络是自动驾驶技术栈的主要组成部分之一。神经网络通过车载摄像头分析有关道路、标志、汽车、障碍物和人的信息。但是深度学习在检测图像中的物体时也会出错。这就是为什么大多数自动驾驶汽车公司,包括Alphabet的子公司Waymo,都使用激光雷达,这是一种通过向各个方向发射激光束来创建汽车周围环境的3D图像的设备,提供令人兴奋的信息。网页空白的补充信息。然而,将激光雷达添加到自动驾驶技术栈中会带来其自身的复杂性。“像这样的自动驾驶技术必须用激光雷达预先绘制环境地图,然后你必须创建一个高清地图,你需要输入所有车道及其连接方式,以及所有交通信号灯。测试时,只需要定位到这张地图。你可以放心开车。”然而,为自动驾驶汽车行驶的每个位置创建准确的地图是极其困难的。Karpathy说:“收集、构建和维护这些高分辨率激光雷达地图很困难,而且要使基础设施保持最新状态将极其困难。”因此,特斯拉不会在其自动驾驶技术堆栈中使用激光雷达。和高清地图技术。“我们可以根据汽车周围八个摄像头的视频信息来处理车内的一切,”他说。自动驾驶技术必须弄清楚车道在哪里,红绿灯在哪里,红绿灯的状态是什么,以及哪些信息与车辆有关。而且它必须在没有获得任何关于它正在行驶的道路的预定义信息的情况下完成所有这些工作。Karpathy承认,基于视觉的自动驾驶在技术上更加困难,因为它需要神经网络技术,而神经网络技术仅基于视频信号就可以非常出色地发挥作用。“但一旦你真正让它发挥作用,它就是一个可以部署在地球任何地方的通用视觉系统,”他说。有了通用视觉系统,自动驾驶汽车将不需要任何辅助设备。Karpathy说,特斯拉已经在朝着这个方向前进。此前,该公司的自动驾驶汽车使用激光雷达和摄像头的组合来自动驾驶,但该公司已经开始销售不使用激光雷达的汽车。Karpathy说:“我们去掉了激光雷达,新的自动驾驶汽车只靠视觉驾驶。”他补充说,原因是特斯拉的深度学习系统性能优于激光雷达,现在使用激光。相反,雷达阻碍了它的技术发展。反对监督学习反对纯计算机视觉方法的主要论点是,神经网络是否可以在没有激光雷达深度图像技术的情况下进行里程计和估计距离,仍然存在不确定性。“显然,人类在驾驶时主要依靠视觉,因此人类神经网络能够处理视觉输入以了解汽车周围物体的距离和速度,”Karpathy说。但最大的问题是我们开发的神经网络是否也能做到这一点。事物。我们一直在努力解决这个问题,我们已经对这个问题说是了。”特斯拉工程师通过创建一个深度学习系统来做到这一点,该系统可以检测物体及其距离、速度和加速度。他们将挑战视为一个监督学习问题,其中神经网络在对带注释的数据进行训练后学习检测对象及其相关属性。为了训练他们的深度学习架构,Tesla的研发团队需要包含数百万个视频的海量数据集,并用它们包含的对象及其属性仔细注释。为自动驾驶汽车创建数据集特别棘手,因为技术工程师必须确保包括各种不常发生的道路状况和路边情况。Karpathy说:“当你拥有一个庞大、干净、多样化的数据集并在其上训练一个大型神经网络时,就可以保证在实践中取得成功。”随着数百万辆配备摄像头的汽车的销售,它可以很好地收集训练汽车视觉深度学习模型所需的数据。特斯拉的自动驾驶技术开发团队已经积累了1.5PB的数据,包括100万个10秒视频和60亿个带有边界框、深度和速度注释的对象。但是标记这样的数据集是一个巨大的挑战。一种方法是通过数据标签公司或在线平台(如AmazonTurk)对其进行手动注释。但这需要大量的手工工作,成本更高,而且是一个非常缓慢的过程。相反,特斯拉的开发团队使用了一种自动标记技术,该技术涉及神经网络、雷达数据和人工审查的组合。由于数据集是离线标注的,其神经网络可以反复运行视频,将预测与真实情况进行比较,并调整参数。这与测试时间推理形成对比,在测试时间推理中,一切都是实时发生的,深度学习模型无法跟踪。离线标记还使技术工程师能够应用非常强大且计算密集型的对象检测网络,这些网络无法在船上部署以用于实时、低延迟应用程序。他们使用激光雷达传感器数据进一步验证神经网络的推论。所有这些都提高了标记网络的准确性。“如果它处于离线状态,则有事后分析的好处,因此可以更冷静地融合不同的传感器数据。此外,人类也可以参与其中,他们可以清理、验证、编辑等。”根据Karpathy。视频Karpathy在CVPR研讨会上展示,目标检测网络在碎片、灰尘和雪云中始终如一地执行。特斯拉的神经网络可以在各种能见度条件下持续检测新出现的物体。Karpathy没有说对自动标记系统进行最终修复需要多少工作。但人类的认知在引导自动标签系统朝着正确的方向发展方面发挥了关键作用。在数据集的开发过程中,特斯拉的开发团队开发了200多个触发器,并对物体检测进行了不断的调整。其中包括不同摄像头检测结果不一致或摄像头与激光雷达检测结果不一致等问题。他们还确定了需要特别注意的场景,例如隧道出入口和特殊类型的汽车。花了四个月的时间来开发和掌握所有这些触发器。随着标记网络变得更好,它正在以“影子模式”部署,这意味着它被安装在自动驾驶车辆中并静默运行,无需向汽车发出命令。将网络的输出与传统网络、激光雷达和驾驶员行为的输出进行比较。特斯拉的开发团队经历了七次数据工程迭代。他们从训练神经网络的初始数据集开始。然后,他们在真实汽车上以影子模式部署深度学习,并使用触发器来检测不一致、错误和特殊场景。然后进行修订以更正错误,并在必要时向数据集添加新数据。“我们一遍又一遍地修补和调整,直到神经网络变得非常好,”Karpathy说。因此,该架构可以更好地描述为具有巧妙分工的半自动标记系统,其中神经网络执行重复性工作,员工处理高级认知问题和极端情况。有趣的是,当一位与会者问Karpathy是否可以自动生成触发器时,他说,“生成自动触发器是一个非常棘手的场景,因为你可以拥有通用触发器,但它们不能正确地表示错误模式......例如,它是“很难使进入和退出隧道的触发器自动化。而且由于人类的直觉处理,这是一个挑战……目前尚不清楚这将如何运作。”HierarchicalDeepLearningArchitecturesTesla的自动驾驶开发团队需要一个非常高效且设计良好的神经网络来充分利用他们收集的高质量数据集。该公司创建了一个分层的深度学习架构,该架构由处理信息的不同神经网络组成并将它们的输出馈送到下一组网络。深度学习模型使用卷积神经网络从安装在汽车周围的八个摄像头的视频中提取特征,并使用神经网络将它们融合在一起。然后将它们跨时间融合,即对于轨迹预测和平滑推理不一致等任务很重要。然后将空间和时间特征输入神经网络的分支结构,Karpathy将其描述为头部、躯干和终端。“这种分支结构的原因是因为输出是巨大的,你不能为每个输出都有一个单一的神经网络,”Karpathys援助。分层结构可以为不同的任务和不同的推理路径重用组件。它们之间的功能共享。网络模块化架构的另一个好处是分布式开发的可能性。特斯拉目前雇佣了一个机器学习工程师团队,致力于研究自动驾驶汽车的神经网络。他们每个人都开发神经网络的一个小组件,并将开发插入更大的神经网络。“我们的开发团队大约有20人,他们全职致力于训练神经网络,”Karpathy说。垂直整合微调其深度学习模型的超级计算机的一些细节。其计算集群由80个节点组成,每个节点包含8个NvidiaA100GPU和80GB显存,总共有5,760个GPU和超过450TB的内存。该超级计算机还拥有10PB的NVME超高速存储和640Tbps的网络容量,可以连接所有节点并允许神经网络的高效分布式训练。“特斯拉还拥有并制造安装在其汽车中的人工智能芯片。这些芯片专为神经网络设计,我们希望将其用于全自动驾驶应用,”Karpathy说。最大的优势在于其垂直整合的性质。整个自动驾驶汽车技术堆栈归特斯拉公司所有,该公司生产电动汽车和用于自动驾驶功能的硬件。它具有独特的优势,可以从已售出的数百万辆汽车中收集各种遥测和视频数据。该公司还在其专有数据集、特殊的内部计算集群上创建和训练其神经网络,并通过对其汽车进行影子测试来验证和微调这些神经网络。当然,该公司还拥有一支由机器学习工程师、研究人员和硬件设计师组成的才华横溢的团队,可以将所有部分整合在一起。Karpathy说:“我认为我们可以在堆栈的所有层进行共同设计和工程,并在没有第三方干预的情况下完全控制我们自己的命运,这真是令人难以置信。”在许多车辆上部署它的垂直整合和迭代周期使特斯拉在实现视觉自动驾驶汽车功能方面处于独特的市场地位。在他的演讲中,Karpathy展示了几个例子,在这些例子中,新的神经网络优于结合激光雷达信息使用的传统机器学习模型。正如Karpathy所说,如果这个系统继续改进,特斯拉可能会走上淘汰激光雷达的道路,而现在没有其他公司可以复制特斯拉的做法。有一些问题有待解决,也有一些悬而未决的问题,例如,深度学习在目前的状态下能否克服自动驾驶的所有挑战?当然,物体检测以及速度和距离估计在驾驶中起着重要作用。但人类视觉还执行许多其他复杂功能,科学家将其称为视觉的“暗物质”。这些都是在不同环境中对视觉输入和导航进行有意识和潜意识分析的重要组成部分。深度学习模型也难以进行因果推理,当模型面临以前从未见过的新情况时,这可能是一个巨大的障碍。因此,尽管特斯拉设法创建了一个非常庞大且多样化的数据集,但开放道路也是一个非常复杂的环境,随时可能发生新的和不可预测的事情。AI界对于因果关系和推理是否需要明确地集成到深度神经网络中,或者因果关系障碍是否可以通过“直接拟合”来克服存在分歧,在这种情况下,大型且分布良好的数据集足以达到一般深度学习的水平。特斯拉基于视觉的自动驾驶团队似乎更倾向于后者(尽管他们完全掌握了技术栈,并且未来会尝试新的神经网络架构)。这项技术能否经得起时间的考验,人们拭目以待。原标题:特斯拉AI负责人解释自动驾驶汽车为何不需要激光雷达,作者:BenDickson