当前位置: 首页 > 科技观察

清华IEEE论文:使用新的训练方法帮助自动驾驶决策摆脱“路边干扰”

时间:2023-03-18 11:42:31 科技观察

近日,清华大学的学者提出了一种基于autoencoder的新训练方法,可以忽略不相关的特征,同时保留相关的特征。与现有的端到端提取方法相比,该方法只需要图像级标签,降低了标签成本。研究人员发现,通过训练卷积神经网络(CNNs)模型来处理编码器的输出并生成转向角来控制车辆,验证了该方法的有效性。整个端到端的自动驾驶方法可以忽略不相关特征的影响,即使这些特征在训练卷积神经网络时并不存在。基于卷积神经网络的autoencoder论文的作者列出了相应算法的主要思想和基本过程:该系统由一个autoencoder和一个autoencoder组成,如图1所示。来自前置摄像头的图像作为autoencoder的输入.自编码器由编码器和解码器组成。编码器的输出作为CNN的输入,CNN计算并输出转向角来控制车辆。(图1.完整系统示意图,由去除图像中不相关特征的自动编码器和生成控制命令的CNN组成)自动编码器是一种人工神经网络,旨在学习高效的数据编码。它学习如何有效地编码数据并将数据从编码表示重构为尽可能接近原始数据的表示。自动编码器的两个主要应用是降维和信息检索。虽然降维类似于我们的任务,但通常不执行特征去除,因为它们都需要从输入中提取有用的特征。最近,自动编码器已被证明适用于不同的任务,例如图像处理,自动编码器可以实现图像压缩和图像去噪,但这些任务对于准确的路边物体识别意义不大。在图像压缩工作中,对图像进行压缩以降低存储或传输的成本;在图像去噪任务中,噪声图像被转移到原始图像。噪声图像用作输入,原始图像用作标签来训练网络。此外,噪声图像应该与原始图像完全相同。从文中的例子来看,如果将不相关的对象视为噪声,似乎可以使用图像去噪方法来提取相关特征。但在实际驾驶场景中,无法去除天空、树木等无关物体,因此该方法不可行。自动编码器如何与CNN一起工作研究人员提出,该算法的目的是从图像中去除所有与决策无关的特征,同时保留所有相关特征。为了降低标记成本,最好只使用图像级标签来训练网络。同时,为了满足端到端方法的定义,特征提取过程的输出应该具有隐含意义。与CNN相比,自动编码器在这方面是更好的选择:无法直接理解编码器的输出,而是将其转换为原始输入,因为它包含与输入一样多的信息。解码器的输出和原始输入之间总是存在一些误差。换句话说,总会有一些信息丢失。理想情况下,该算法的目标是确保任何丢失的信息仅包含不相关的特征,同时保留您想要保留的特征。为了实现这一点,需要教导网络哪些类型的特征应该保留,哪些应该消除。然后,经过多次重复训练过程后,网络可以从输入中提取所需的特征。那么,CNNs在其中的作用是什么?我们系统的CNN架构如图1所示,它由三个卷积层和四个全连接层组成,最后一层输出控制命令(即方向盘角度)。在训练CNN时,自动编码器的参数保持不变。在良好场景的专业驾驶测试中,训练图像将包含许多正常状态的图像。然而,一旦车辆偏离了当前车道的中心,CNN可能无法做出正确的决定。为了避免这个问题,研究人员采用了如图2所示的在线训练方式:车辆由网络控制,同时由专家提供控制指令。训练过程中获取的图像将作为训练数据,而专家给出的命令则作为标签,用于训练网络。由于网络是随机初始化的,车辆在训练初期往往处于异常状态,避免了正常图像过多的问题。(图2,CNN训练过程。实线表示用于控制车辆的信息流,虚线表示用于训练模型的信息流)仿真实现的模拟器和数据集描述(DatasetDescription)展示了simulation模拟器和数据收集过程,并将开发的系统的性能与具有相同网络结构的基线模型进行比较。仿真环境采用PreScan搭建,是智能汽车系统开发的仿真环境,用户可以在其中设计逼真的交通场景。一旦完成特定的交通场景,该工具可以自动生成用于测试自动驾驶算法的Simulink模型。为此,研究人员制定了以下四种测试方案。1)测试方案1:算法在场景1-1中训练,在场景1-3和场景1-4中进行测试。2)测试方案二:算法在场景1-2进行训练,在场景1-3和场景1-4进行测试。3)测试方案三:算法在场景2-1中训练,在场景2-3和场景2-4中进行测试。4)测试方案四:算法在场景2-2进行训练,在场景2-3和场景2-4进行测试。(图3,内置PreScan的场景)解码器自动训练过程需要采集正负样本。在构建的场景中,道路和车道标记是影响驾驶指示的主要因素,而树木和天空是无关紧要的。研究人员首先在模拟环境中随机拍摄照片,然后将每张图像分配给一个数据集,如下图所示。如果图像主要由道路特征组成,则将其归类为正样本。另一方面,如果图像主要由树木或天空特征组成,则将其归类为负样本。否则,如果相关和不相关特征的比例几乎相同,则丢弃该图像。正样本集和负样本集如图4所示。在训练CNN的方法中,用于训练目的的数据是在训练过程中收集的。前置摄像头捕获的输入图像尺寸为240×320×3。由于任务是保持在车道内,因此可以通过跟踪算法确定标签,即转向角,使车辆沿车道中心线行驶车道,由PreScan环境提供。(图4,部分数据集用于训练autoencoder)总的来说,本文提出了一种新的训练方法,可以让autoencoder从输入图像中提取有用的特征,并将其应用到端到端的训练中结束自动驾驶方法,忽略不相关的路边物体。由此我们可以得出一些结论:首先,通过在训练自动编码器时使用交替的正负采样,编码器可以学习从输入图像中去除那些不相关的特征,从而确保输出特征图只包含相关特征。在解码器输出的图像中,树木和天空等不相关的物体几乎无法区分,而道路和车道标记却很清晰。同时,所提出的训练方法只能依靠图像级标签来训练自动编码器。与现有的端到端多任务自动驾驶方法相比,该方法降低了标注成本。此外,使用由autoencoder和CNN组成的端到端自驾方法,即使训练数据中无关物体很少,也不会受到路边无关物体的影响。生成的细化模型和基线模型不易受阴影影响。当太阳角度设置为45°时,所提出的模型仍然提供良好的性能,而基线模型无法使车辆保持在车道上。这种方法的当前限制是“简单场景”。为了扩大应用范围,可以有不同的无关对象,例如建筑物和周围的车辆。该模型中的CNN可以替换为强化学习算法来处理动态场景。也可以考虑进行有限范围的路试。此外,为了处理如此复杂的图像,决策网络的架构也将得到扩展。原文链接:Wang,T.,Luo,Y.,Liu,J.,Chen,R.,&Li,K.(2022)。使用自动编码器独立于无关路边物体的端到端自动驾驶方法。IEEE智能交通系统汇刊,23(1),641-650。doi:http://dx.doi.org/10.1109/TITS.2020.3018473主要作者信息:罗宇工(IEEE会员)-分别于1996年和1999年获得理学学士学位和理学硕士学位分别是重庆大学。2003年获得博士学位。来自清华大学。现任清华大学汽车与交通学院教授。他撰写了70多篇期刊文章,并拥有31项专利。主要研究方向为智能互联电动汽车动力学与控制、整车噪声控制。王婷涵-2016年获得清华大学理学学士学位,目前正在攻读博士学位。他的研究兴趣包括端到端自动驾驶和基于深度神经网络的深度强化学习。刘进新——2017年获合肥工业大学理工科学士学位,目前在读博士。在清华大学。主要研究方向为汽车意图识别与行为规划。