当前位置: 首页 > 科技观察

搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述

时间:2023-03-21 23:57:55 科技观察

搞强化学习,不懂AutoRL。牛津大学、谷歌等十余位学者撰写了综述。强化学习(RL)和深度学习的结合带来了一系列令人印象深刻的成果。许多人认为(深度)强化学习为通用代理提供了一条路径。然而,RL代理的成功通常对训练期间的设计选择高度敏感,这可能需要繁琐且容易出错的手动调整。这使得将RL应用于新问题具有挑战性,同时也限制了RL的全部潜力。在机器学习的许多其他领域,AutoML已经表明可以自动执行此类设计选择,并且在应用于RL时也产生了有希望的初步结果。然而,自动强化学习(AutoRL)不仅涉及AutoML的标准应用,还包括RL独有的额外挑战,这自然会导致研究人员采用一些不同的方法。AutoRL已成为RL研究的一个重要领域,有望应用于从RNA设计到围棋等游戏的各种应用。由于RL中考虑的方法和设置的多样性,许多研究在不同的子领域进行。来自牛津大学、弗莱堡大学、GoogleResearch和其他机构的十几位研究人员撰写了一份试图统一AutoRL领域并提供通用分类法的文章。该研究详细讨论了每个领域,并提出了未来研究人员感兴趣的领域。问题。论文地址:https://arxiv.org/pdf/2201.03916.pdfAutoRL方法强化学习理论上可以用于任何任务,包括世界模型未知的环境。然而,这种通用性是有代价的,其最大的缺点是智能体往往无法获得环境的真实模型。如果智能体想要在场景中使用模型,它必须完全从经验中学习,这带来了很多挑战。智能体探索的模型与真实模型之间存在误差,这种误差会导致智能体在学习模型中表现良好但在真实环境中表现不佳(甚至很差)。本研究调查的目的是介绍AutoRL领域,它可以应对各种挑战:一方面,RL算法的脆弱性阻碍了它们在新领域的应用,尤其是那些从业者缺乏大量资源来搜索最佳配置的领域。在许多情况下,对于完全看不见的问题,手动查找一组中等强度的超参数可能会非常昂贵。AutoRL已被证明可以帮助解决这方面的重要问题,例如设计RNA。另一方面,对于那些希望从更多计算中获益的人来说,增加算法的灵活性显然可以提高性能。著名的AlphaGo代理已经证明了这一点,它通过使用贝叶斯优化得到了显着改进。早在1980年代,AutoRL算法就已被证明是有效的。然而,最近AutoML的流行导致了更高级技术的新生应用。与此同时,最近元学习的流行导致了一系列旨在自动化RL过程的工作。本文试图对这些方法进行分类,他们希望通过思想的交叉融合开辟一系列未来的工作,同时也向RL研究人员介绍一组技术来提高他们算法的性能。该研究认为,无论是在开放研究还是在现实世界的应用中,AutoRL都可以在增加强化学习的潜在影响方面发挥重要作用。此外,该研究希望吸引对AutoML感兴趣的研究人员加入AutoRL社区,特别是RL是非平稳性的,因为代理正在训练的数据是当前策略的函数。此外,该研究还介绍了AutoRL针对特定RL问题的环境和算法设计。该研究调查了AutoRL社区以及技术等。通常,大多数AutoRL方法都可以通过组合内部循环和外部循环来组织。每个循环都可以通过黑盒或基于梯度的方法进行优化,但是,外循环的梯度和内循环的黑盒不能合并,因为内循环黑盒设置会使梯度无法使用,如如表2和图2所示:如下表3所示,本研究按大类总结了AutoRL方法的分类,这将在第4章的每个小节中有所体现。随机/网格搜索驱动方法本研究首先讨论了最简单的方法:随机搜索和网格搜索。随机搜索从搜索空间中随机采样超参数配置,而网格搜索将搜索空间划分为固定的点网格并对其进行评估。由于它们的简单性,随机搜索和网格搜索可用于选择超参数列表、评估超参数并选择最佳配置。事实上,网格搜索仍然是RL中最常用的方法,并且网格搜索在绝大多数情况下调整超参数,但它不应该被认为是最有效的方法。但是这些经典方法没有考虑到优化问题潜在的非平稳性,如下图3所示:提高随机搜索性能的一种常用方法是使用Hyperband,一种用于超参数优化的配置评估。它侧重于通过自适应资源分配和提前停止来加速随机搜索。特别是,Hyperband使用“连续减半”将预算分配给一组超参数配置。张等。使用随机搜索和Hyperband来调整他们的MBRL算法的超参数。贝叶斯优化贝叶斯优化(BayesianOptimization,BO)是迄今为止最流行的方法之一,主要用于工业应用和各种科学实验。对于RL应用程序,BO最突出的用途之一是调整AlphaGo超参数,包括蒙特卡洛树搜索(MCTS)超参数和时间控制设置。这导致AlphaGo在自我对弈中的获胜率从50%提高到66.5%。图4显示了RL情况下贝叶斯优化的一般概念:进化算法进化算法广泛应用于各种优化任务,其机制如图5所示:进化算法通常用于搜索RL算法的超参数。埃里克森等人。使用真正的遗传算法(GA)来调整RL算法的超参数,通过对种群中每个个体的超参数进行遗传编码来调整SARSA的超参数。研究人员应用这种方法来控制移动机器人。CardenosoFernandez和Caarls使用GA在简单设置中调整RL算法的超参数,并结合自动重启策略以摆脱局部最小值,取得了良好的性能。阿什拉夫等。使用受座头鲸狩猎策略启发的鲸鱼优化算法(WOA)来优化DDPG超参数,以提高各种RL任务的性能。MetagradientsforOnlineTuningMetagradients提供了一种替代方法来处理RL超参数的非平稳性。元梯度公式的灵感来自元学习方法,例如MAML,它使用梯度优化内部和外部循环。特别是,元梯度方法将其(可微)超参数的子集指定为元参数η。在内部循环中,代理使用固定的η进行优化,采用梯度步骤来最小化(通常是固定的)损失函数。在外部循环中,通过采用梯度步骤来优化η以最小化外部损失函数。内部和外部损失函数的每个特定选择都定义了一个新的元梯度算法。黑盒在线调整PBT和元梯度的优势在于能够动态调整超参数,但这不是唯一的方法。事实上,研究人员已经考虑了各种其他方法,从黑盒方法到在线学习启发式。本节重点介绍在超参数不可微分的设置中用于动态适应的单代理方法。自1990年代以来,自适应选择超参数的方法一直很重要。Sutton和Singh(1994)提出了TD算法中自适应加权方案的三种替代方案,Kearns和Singh(2000)推导出时间差分算法误差的上限,并使用这些界限推导出λ的时间表。Downey和Sanner(2010)使用贝叶斯模型平均来为TD方法选择λ自举超参数。最近,White(2016)提出了λ-greedy以适应λ作为状态的函数并实现近似最优的偏差方差权衡,Paul等人。(2019)提出了HOOF,它使用带有离策略数据的随机搜索来周期性地为策略梯度算法选择新的超参数。环境设计环境设计是强化学习智能体自动学习的重要组成部分。从课程学习到合成环境学习和生成,再到课程学习与环境生成相结合,这里的目标是通过环境设计来加快机器学习代理的学习速度。如图7所示:混合方法不可避免地,有些方法不属于单一类别。事实上,许多方法试图利用不同的方法,可以称为混合方法。在本研究中,这些混合方法被定义为使用表3中不止一类技术的方法,例如BOHB、DEHB等。