麻省理工学院的研究人员使用人工智能帮助自动驾驶汽车避免在特别幸运的情况下发生红灯怠速,但也可以通过使用人工智能控制速度的自动驾驶汽车更稳定地实现。在一项新研究中,麻省理工学院(MIT)的科学家展示了一种机器学习方法。该方法可以学习控制一队自动驾驶汽车,以在它们接近并通过信号交叉口时保持交通畅通。根据仿真结果,他们的方法可以在提高平均车速的同时降低油耗和排放。如果道路上的所有汽车都是自动驾驶,则该技术效果最好,但即使只有25%的汽车使用他们的控制算法,它仍然可以带来巨大的燃料和排放效益。“这是一个非常有趣的地方,可以进行干预。没有人的生活会更好,因为他们被困在十字路口。许多其他气候变化干预措施的生活质量存在预期差异,因此进入那里存在障碍”该研究论文的资深作者CathyWu指出。他是土木与环境工程系的GilbertW.Winslow职业发展助理教授,也是数据、系统和社会研究所(IDSS)以及信息和决策系统实验室(LIDS)的成员。LIDS和电气工程与计算机科学系的研究生VindulaJayawardana都是该论文的主要作者。该研究将在欧洲控制会议上发表。错综复杂的十字路口虽然一个人可能不假思索地驾车闯绿灯,但十字路口可能有数十亿种不同的场景,这取决于车道的数量、灯的工作方式、车辆的数量和速度、行人和骑自行车的人以及人类的存在和很快。解决交叉口控制问题的典型方法是使用数学模型来求解简单、理想的交叉口。这在纸面上看起来不错,但在现实世界中可能行不通,因为现实世界中的交通模式往往很混乱。Wu和Jayawardana采取了不同的方法,使用一种称为深度强化学习的无模型技术来解决这个问题。强化学习是一种试错法,其中控制算法学习做出一系列决策。当它找到一个好的序列时它会得到奖励。通过深度强化学习,算法使用神经网络学习的假设来找到良好序列的捷径——即使存在数十亿种可能性。这对于解决像这样的长线问题很有用。Wu指出,控制算法必须在很长一段时间内向车辆发出500多个加速命令。此外,她补充道,“而且在我们知道我们已经很好地减少了排放并以良好的速度到达十字路口之前,我们必须得到正确的顺序。”可以学习一种策略来减少燃料消耗并限制对旅行时间的影响。这些目标可能会发生冲突。“为了减少旅行时间,我们希望汽车开得快,但为了减少排放,我们希望汽车减速或根本不动。这些相互竞争的奖励会使学习代理非常困惑,”吴说。虽然解决这个问题的普遍性具有挑战性,但研究人员采用了一种称为奖励塑造的技术来解决这个问题。通过奖励塑造,他们为系统提供了一些它无法自行学习的领域知识。在这种情况下,每当车辆完全停止时,他们就会惩罚系统,以便它学会避免这种行为。交通测试一旦研究人员开发出有效的控制算法,他们就会使用具有单个交叉路口的交通模拟平台对其进行评估。该控制算法应用于联网的自动驾驶车队,这些车辆可以与迎面而来的交通信号灯进行通信,以接收信号灯的相位和时间信息并观察周围环境。控制算法告诉每辆车如何加速和减速。当车辆驶近十字路口时,他们的系统不会造成任何走走停停的交通。在模拟中,与模拟人类驾驶员的模型相比,在单个绿灯阶段通过的汽车更多。与同样旨在避免走走停停的交通的其他优化方法相比,他们的技术可以更大程度地减少燃料消耗和排放。如果路上的每辆车都是自动驾驶的,他们的控制系统可以减少18%的燃料消耗和25%的二氧化碳排放量,同时将行驶速度提高20%。“一次干预就能减少20%到25%的燃料或排放量,这真是令人难以置信,”Wu说。“但我觉得有趣的,也是我真正想看到的,是这种非线性缩放。如果我们只控制25%的车辆,这将使我们受益于减少50%的燃料和排放。这意味着我们不必等到我们达到100%的自动驾驶汽车才能从这种方法中受益。”接下来,研究人员想研究多个十字路口之间的交互作用,此外,他们还计划探索不同的十字路口设置,如车道数、信号灯、时间等,如何影响行驶时间、排放和油耗。他们计划研究自动驾驶汽车的控制系统在与人类司机共享道路时如何影响安全。虽然这项工作仍处于早期阶段,但Wu认为这种方法在短期内实施起来更可行。
