当前位置: 首页 > 科技观察

深度强化学习探索算法最新综述,近200篇文献揭示挑战和未来方向

时间:2023-03-16 23:57:23 科技观察

深度强化学习探索算法的最新综述,近200篇文档揭示了挑战和未来方向的表现,但尽管如此,强化学习所需的样本量(交互次数)远远超过人类达到同等水平。这种对大量交互样本的需求严重阻碍了强化学习在现实场景中的应用。为了提高样本的利用效率,agent需要高效地探索未知环境,然后收集一些对agent有利的交互数据,以达到最优策略,从而促进agent的学习。近年来,研究人员从不同角度对强化学习中的探索策略进行了研究,取得了很大进展,但对强化学习中的探索策略仍缺乏全面深入的分析。最新综述,近200篇文献揭示挑战和未来方向》>论文地址:https://arxiv.org/pdf/2109.06668.pdf本文介绍了深度强化学习领域的第一篇系统综述文章ExplorationinDeepReinforcementLearning:AComprehensiveSurvey.这篇综述一共考察了近200篇文献,涵盖了深度强化学习和多智能体深度强化学习两个领域的近100种探索算法。总的来说,这篇综述的贡献主要可以总结为以下四个方面:三类探索算法。本综述首次提出了基于方法性质的分类方法。三类,并从单智能体深度强化学习和多智能体方面系统地梳理了探索策略-agentdeepreinforcementlearning.四大挑战.除了探索算法的总结,另一个壮举审查确定的是勘探战略。挑战分析。综述首先分析了探索过程中的主要挑战,同时针对每一种方法,综述也详细分析了其解决各种挑战的能力。三个典型的基准。该调查提供了具有代表性的DRL探索方法在三个典型探索基准上的全面和统一的性能比较。五个开放性问题。本综述分析了需要解决和进一步改进的剩余挑战,并揭示了强化学习探索领域的未来研究方向。接下来,本文介绍了该综述的四大贡献。三类探索算法的最新综述,近200篇文献揭示挑战和未来方向”>上图为综述所遵循的分类方法。综述从单代理深度强化学习算法中的探索策略开始,多-agentdeepreinforcement学习算法中探索策略的两个方向系统梳理了相关工作,分为三个子类:Uncertainty-orientedexplorationstrategies,Intrinsicmotivationoriented)Explorationstrategy,andotherstrategies.1.Uncertainty-orientedexplorationstrategy通常遵循“乐观对待不确定性”(OFUPrinciple)的指导原则“1”。这种做法认为agent在某个区域较高的不确定性(Uncertainty)往往是由于对该区域的探索不够充分造成的,因此乐观地对待不确定性,即引导agent探索高u的区域不确定性。在一些地方,可以达到高效探索的目的。在强化学习中,通常考虑两种类型的不确定性。其中,将探索引导到认知不确定性高的区域可以促进agent的学习,但是访问环境不确定性高的区域不会促进agent的学习过程。然而,环境不确定性的干扰会影响正常的学习过程。因此,在对认知不确定性引导的探索持乐观态度的同时,尽可能避免访问环境不确定性较高的区域更为合理。基于此,该综述根据勘探中是否考虑环境不确定性,将此类基于不确定性的勘探策略分为两个子类。第一类只考虑认知不确定性指导下的乐观探索。典型作品有RLSVI《2》、BootstrappedDQN《3》、OAC《4》、OB2I《5》等;第二类是基于乐观的探索。同时,考虑避免环境不确定性的影响。典型作品有IDS《6》和DLTV《7》。2.内在动机信号的探索策略人类通常会通过不同的方式主动与世界互动,并通过自我激励获得成就感。受此启发,面向内在动机信号的探索方法通常通过设计内在奖励为代理创造成就感。从用于设计内在动机信号的技术来看,单智能体方法中内在动机信号的探索策略可以分为三类,即估计环境动力学预测误差的方法和状态新颖性估计方法。和基于信息增益的方法。在多智能体问题中,目前的探索策略主要从状态新颖性和社会影响力的角度考虑内在激励信号的设计。环境动力学预测误差的估计方法主要是根据预测误差,鼓励agent探索预测误差较高的状态。典型作品有ICM《8》和EMI《9》。状态新颖性方法不局限于预测误差,而是直接衡量状态的新颖性(Novelty),并将其作为内部激励信号,引导智能体探索更新颖的状态。典型作品有RND“10”、NoveltySearch“11”、LIIR“12”等。基于信息增益的方法将信息获取作为内在奖励,旨在引导agent探索未知区域,同时防止代理过多关注随机区域。典型作品有VIME《13》等。在多智能体强化学习中,有一类特殊的探索策略衡量“社会影响力”,即一个智能体对其他智能体的影响,并将其作为内部激励信号进行引导。典型作品有EITI和EDTI《14》等。3.其他除了上述两大类主流探索算法外,综述还研究了一些其他分支方法,从其他角度进行有效探索。这些方法为如何在DRL中实现通用和有效的探索提供了不同的见解。这主要包括以下三类。一种是基于分布式探索算法,即使用具有不同探索行为的异构参与者以不同方式探索环境。典型作品有Ape-x“15”、R2D2“16”等。二是基于参数空间噪声的探索。与向策略输出添加噪声不同,使用噪声扰乱策略参数可以使探索更加多样化,同时保持一致性。典型作品有NoisyNet《17》等。除了以上两类,综述还介绍了其他几种思路不同的探索方法,包括Go-Explore“18”、MAVEN“19”等。四大挑战概述重点阐述高效勘探策略面临的四大挑战。大规模的状态动作空间。state-actionspace的增大意味着agent需要探索的空间变大,这无疑会导致探索难度的增加。稀疏、延迟的奖励信号。稀疏和延迟的奖励信号会使agent的学习变得非常困难,探索机制是否合理直接影响学习效率。观察中的白噪声。现实世界环境通常具有较高的随机性,即状态或动作空间中通常会出现不可预测的内容,探索过程中避免白噪声的影响也是提高效率的重要因素。多代理探索挑战。在多智能体任务下,除了上述挑战外,呈指数增长的状态-动作空间、智能体之间的合作探索、局部探索和全局探索之间的权衡都是影响多智能体探索效率的重要因素。概述中总结了这些挑战的原因和可能的解决方案。同时,在详细介绍方法的部分,对现有方法应对这些挑战的能力进行了详细分析。下图分析了单智能体强化学习中基于不确定性的探索方法解决这些挑战的能力。最新综述,近200篇文献揭示挑战和未来方向》>三大经典benchmarks为了对不同的探索方法进行统一的实验评估,综述总结了上述代表性方法在三个具有代表性的性能benchmarks上的实验结果:《蒙特祖玛的复仇》,AtariandVizdoom.Montezuma'sRevenge由于其奖励稀疏和延迟是一项艰巨的任务,需要RLagents具有强大的探索能力以获得积极的反馈;而穿越多个房间并获得高分进一步需要人类水平的记忆和控制overeventsintheenvironment.整个Atari系列专注于探索提高RL代理学习性能的方法。为了更全面的评估。Vizdoom是另一个具有多种奖励配置(从密集到非常稀疏)的代表性任务。不同于前两个任务,Vizdoom是West的导航(和射击)游戏。这个simul学习环境具有严重的局部可观察性和潜在空间结构,更类似于人类面临的现实世界学习环境。最新综述,近200篇文献揭示挑战和未来方向”>基于上表所示的统一实验结果,结合拟探索中的主要挑战,概述分析了各种探索策略在这些任务中的优缺点detail.OpenQuestionsandFutureDirectionsRecordingExplorationStrategies尽管勘探策略研究取得了非常前沿的进展,但仍然存在一些问题没有得到完全解决,综述主要从以下五个角度讨论尚未解决的问题。inlarge-scaleactionspaces.在大规模动作空间中,通过整合表示学习、动作语义等方法来降低探索算法的计算复杂度仍然是一个紧迫的问题。尽管在复杂任务(长时间步长、极度稀疏、延迟奖励设置)的探索中取得了一些进展,例如蒙特祖玛的复仇,但这些解决方案通常代价高昂,甚至需要大量资源。人类先验知识。还有更多的普遍性问题值得探讨。白噪声问题。一些现有的解决方案需要额外估计动态模型或状态表示,这无疑增加了计算消耗。此外,对于白噪声问题,采用对抗训练等方法来增加探索的鲁棒性也是一个值得研究的问题。收敛。在面向不确定性的探索中,线性MDP下认知不确定性可以收敛到0,但深度神经网络下的维数爆炸导致收敛困难。对于内在动机的探索,内在动机往往是启发式设计的,缺乏理论合理性。多代理探索。多智能体探索的研究还处于起步阶段,上述局部观察、不稳定、协同探索等问题还没有得到很好的解决。主要作者介绍杨天培博士,目前在阿尔伯塔大学从事博士后研究。杨博士获得博士学位。2021年毕业于天津大学。主要研究方向为迁移强化学习和多智能体强化学习。杨博士致力于通过迁移学习、分层强化学习、对手建模等技术提高强化学习和多智能体强化学习的学习效率和性能。目前在IJCAI、AAAI、ICLR、NeurIPS等顶级会议发表论文十余篇,并担任多个会议期刊的审稿人。唐宏耀博士,天津大学在读博士。唐博士的研究兴趣主要包括强化学习和表征学习,学术成果发表在AAAI、IJCAI、NeurIPS、ICML等顶级会议期刊。白嘉博士是哈尔滨工业大学的博士生。研究兴趣包括探索与利用、离线强化学习。学术成果发表在ICML、NeurIPS等。刘锦义,天津大学智能与计算系硕士研究生。他的研究兴趣主要包括强化学习和离线强化学习。郝建业博士,天津大学智能与计算系副教授。主要研究方向为深度强化学习和多智能体系统。在人工智能领域国际会议和期刊发表论文100余篇,专着2部。主持和参与国家科委、科技部、天津市人工智能重大专项等科研项目10余项。研究成果获得ASE2019、DAI2019、CoRL2020最佳论文奖。在自动驾驶、网络优化等领域落地应用。