arXiv2021年12月21日上传的自动驾驶中可解释人工智能综述:《面向自动驾驶的可解释人工智能:未来研究方向的综合概述和领域指南》,作者来自加拿大阿尔伯塔大学,华为研发。在过去的十年中,自动驾驶的研发取得了重大里程碑。对在道路上部署自动驾驶车辆的兴趣预示着更安全和环保的交通系统。随着计算能力强大的人工智能(AI)技术的兴起,自动驾驶汽车可以高精度感知环境,做出安全的实时决策,并在无需人工干预的情况下更可靠地运行。然而,就目前的技术水平而言,自动驾驶汽车的智能决策往往不为人类所理解,这一缺陷阻碍了该技术被社会接受。因此,除了做出安全的实时决策外,自动驾驶汽车的人工智能系统还需要解释这些决策是如何构建的,以符合多个政府管辖区的监管要求。该研究为开发用于自动驾驶汽车的可解释人工智能(XAI)方法提供了全面的信息。首先,全面概述了当前最先进的自动驾驶汽车行业中可解释的差距。然后,提出了该领域中可解释和可解释受众的分类。第三,提出了端到端自动驾驶系统架构框架,并展示了XAI在调试和调节此类系统中的作用。最后,作为未来的研究方向,对自动驾驶的XAI方法进行现场指导,提高操作安全性和透明度,并公开获得监管机构、制造商和所有密切参与者的批准。对自动驾驶可解释性的需求源于各种问题和担忧。首先,自动驾驶汽车卷入发生的道路交通事故是一个基本的实际问题。由于粗心和危险驾驶会直接影响乘客和旁观者的安全,因此人们经常需要确认安全的交通系统。此外,理解行动或决定为何发生是人类思维的自然要求。一位专家表示,“如果用户不信任某个模型或预测,他们就不会使用它。”在案例研究中,经验表明,提供一个可解释和可感知的系统可以显着增加用户对系统的信任。特别是,如果不向参与者提供可靠的解释,频繁的故障会严重损害个人和公众对智能系统的信任。一旦对智能系统的信任被打破,重新获得它可能是一项艰巨的任务。因此,人类很自然地想知道汽车在给定场景中的关键决策,以建立对汽车的信任。如果汽车的智能决策背后有信任,另一个积极的组成部分,即透明度,将得到进一步支持。一旦提供了透明度,就满足了另一个要求,即问责制,这与系统的决策和行动是否符合管辖法规和标准有关。最终,这些积极因素有助于自治系统的决定性行动的公平性、道德分析、支持和因果论证。这些组件及其相互关系可被视为实现自动驾驶汽车大规模接受的基本因素。可解释的细节、类型和表达方式根据自动驾驶用户的身份和背景知识而有所不同。例如,对自动驾驶汽车如何操作缺乏专业知识的用户可能会对相关决策/结果的简单解释感到满意。然而,自主系统工程师需要更多的信息解释来了解汽车当前的可操作性并根据需要适当地“调整”现有系统。因此,解释受众的领域知识和知识特征对于提供适当、消息灵通和易于理解的解释至关重要。以下是一些可解释性因素:原因过滤器内容类型模型系统类型交互性具体范围以下是自动驾驶各模块的可解释性方法:1感知正如对环境的准确感知是自动驾驶的基本要求,它提供了自主动作决策的基本解释对于理解场景导航和驾驶行为也至关重要,尤其是在关键场景中。因此,需要在自动驾驶车辆的感知任务中提供可解释性方法。一些研究通过对视觉注意力的内省文本描述来寻求因果(事后)解释,一些研究将解释解释为对涉及因果推理的人类行为的描述,而其他研究则侧重于对象诱发的行为决策。基于感知的解释生成的另一种方法是理解卷积神经网络(CNN)的结果。该方法背后的主要思想是测量和显示从神经网络输出层到输入层的反向传播(BP)的梯度。基于梯度的解释方法的示例包括类激活图(CAM)、其增强变体,例如GuidedGrad-CAM、Grad-CAM、Grad-CAM++、SmoothGradCAM++,以及基于反向传播的方法,例如引导反向传播、分层相关性(分层相关性)传播、VisualBackProp和DeepLift。此外,基于启发式的深度视觉解释(DVE)为深度CNN的预测提供了合理的理由。有关基于计算机视觉的可解释自动驾驶系统的回顾,请参阅Valeo的文章“Explainabilityofvision-basedautonomousdrivingsystems:Reviewandchallenges”。2定位由于自动驾驶汽车的实时决策需要准确感知道路位置,因此了解车辆的位置是如何从不同的导航系统和传感器获取的也至关重要。这就是为什么定位也需要可解释性。需要了解自动驾驶车辆的感应位置,尤其是当来自GPS或其他传感器的信号不精确时。这种不可靠的通信渠道可能会迫使自动驾驶汽车做出错误的、高风险的决定。因此,调整导航系统和相关传感器可以帮助阻挡不准确的信号,并为自动驾驶汽车的正确纵向横向定位提供可靠的通信渠道。3规划中可解释的规划决策制定概述请参阅IBM和亚利桑那州立大学的论文“可解释的自动化规划和决策制定的新兴格局”。在之前的可解释人工智能规划(XAIP)研讨会上,议程明确指出“虽然XAI主要关注基于黑盒学习的方法,但基于模型的方法非常适合——可以说更适合——作为可解释的,XAIP它可以帮助用户进行交互随着人工智能技术在复杂的决策过程中发挥重要作用。“从这篇评论中,可解释性方法分类如下:基于算法的解释基于模型的解释推理协调推理协调模型协调(用户心智模型)基于计划的解释可解释性的属性包括:社会对比选择性局部全局抽象用户研究4控制由于车辆控制最终反映了驾驶系统的高层决策,用户可能需要及时解释实时自动动作选择的基本原理,这需要将可解释性的本质引入到自动车辆系统的控制中。界面、仪表板和其他用户友好的功能,可帮助用户提出“为什么”问题(例如,“为什么停在右边?”)或比较问题(例如,“您为什么选择这条路线而不是另一条路线?”)、反事实问题(例如,“如果选择这条路线而不是当前路线怎么办?”)和描述性问题(例如.g.,“十分钟后你会在哪里?”)。此外,作者提出了一个集自主控制、可解释性和合规性于一体的XAI框架。如图:它包括可调自动驾驶三个组件,一个端到端的自动控制系统组件(eeC,将感知环境映射到车辆的动作),一个安全合规组件(srC,代表监管机构的职能,其中一个主要职责是验证eeC和自动车辆动作的任意组合的安全性。主要通过软件模拟和实际驾驶验证),以及一个XAI组件(XAI-guidedautonomousdrivingshouldreflecta学习了最高级别的软件架构和治理原则)。自动驾驶XAI被定义为AI驱动方法的纲要:1)确保车辆实时决策的可接受安全性,2)在关键交通场景中提供行动决策的可解释性和透明度,以及3)遵守监管机构制定的所有交通规则。最后,作者提出了一个领域指南:GuideXAItofollowthegoalofautonomousdriving,其中包括以下四部分的可解释愿景(包括因果解释和基于计算的并发解释),描述了自然语言的历史和采取的每一个相关行动,有助于为关键交通场景提供可靠的因果解释。此外,基于生成式可解释模型的并发解释可以极大地促进事故预防。例如:假设自动驾驶车辆有一个人在车内(即后备司机或乘客);车辆提供一个控制(即停止)按钮以供紧急使用;路上有人(即视觉系统故障);然后,车内乘员及时发现这种异常情况,使用紧急按钮减速和/或停车,防止事故发生。这个简单的例子表明,同声传译的概念在自动驾驶中具有潜在的实用性,并为安全的车辆导航开辟了机会。Interpretablestate-actionmappingbasedonreinforcementlearning(RL)(自动驾驶基于MDP的轨迹序列决策)是model-based和model-freeRL在可解释性方面的比较:除了模仿学习,两者来自对比RL,我们可以看出,model-basedRL的优势在于agent首先学习环境的模型,并根据环境的动态调整自己的学习策略。这种有针对性的探索,通常称为计划,从本质上解释了学习过程。RL中规划的思想对于正确决策至关重要。以Dyna架构为例:Dyna及其变体,即线性Dyna架构,与世界交互学习最优策略,同时也学习世界模型。Dyna的规划过程根据最初提供的想象状态创建预测的未来轨迹。基于这种结构,模型预测生成最优行为,同时生成预测状态和预测奖励。最后两个组成部分可以作为解释的基础进行可视化和分析,有助于理解为什么代理人更喜欢在特定时刻选择特定的动作。由于自动驾驶的每个(关键)动作都可能需要直观的解释,因此Dyna架构和基于模型的RL通常可以通过其可解释性功能提供巨大的好处。知识表示的预测知识(在RL框架下)一般价值函数(GVF),是表示预测知识的初步技术。根据定义,GVF旨在获得RL代理所做的实际观察的长期预测摘要。例如,自动驾驶中的RL代理可能会提出问题并在GVF中表达相应的答案。例如“在下一个十字路口不遇到红灯的可能性有多大?”或者“根据当前的驾驶策略,预计到达目的地的时间是多少?”软件层次结构)层次结构软件架构是支持自动驾驶可解释决策系统的合适结构。这样的结构直接反映了人类司机在开车时的想法,比如“红绿灯会不会很快从绿变黄?”或者“前面的行人打算过马路吗?”或者“前面的车会加速吗?”这些具有代表性的问题反映了与运动期间驾驶相关的考虑因素。基于这种直觉,可以说自动驾驶汽车的分层软件系统是问题驱动的。可解释的软件系统应该反映所采取的时间行为的时间域问题。此架构的合适RL方法是选项的概念。options是动作的概括,其中RL代理具有执行具有终端状态的动作的策略。最近提出的option-critic架构基于选项的概念。该体系结构可以学习内部策略和选项的终端状态,并且在ArcadeLearningEnvironment(ALE)中的选项的端到端学习被证明是有效的。Option-criticizes架构的固有结构,使其适合于进一步开发自动驾驶汽车的学习系统。与驾驶相关的问题往往是暂时的,几秒钟后可以产生新的问题进行后续跟进。驾驶决策的时间敏感性实时动态变化,使车辆面临不同程度的风险。当然,首选风险较低的操作。然而,在时间和计算方面,我们需要有效地探索和评估与相应行动相关的风险水平:从长远来看,只关注增加RL奖励可能不会导致预期的行动。在传统的RL中,仅考虑没有风险的奖励作为衡量标准并不总是自动化系统的完美决策,并且RL智能体可能无法通过这种探索找到最优策略。相比之下,将不同级别的风险与相应的行动相结合有助于通过不同的转换和奖励动态地发现环境中的最优策略。因此,构建结构良好的问题层次结构并评估与适当行动相关的风险级别有助于在关键交通环境中对智能车辆做出及时、直观、丰富和可信的解释。
