最近,深度强化学习取得了很多成功,但它也有局限性:缺乏稳定性和可重复性差。麻省理工学院和TwoSigma的研究人员重新审视了深度强化学习方法的概念基础,即当前的深度强化学习实践在多大程度上反映了其概念基础框架的原则?本研究的重点是深度策略梯度方法。深度强化学习是现代机器学习最著名的成就,催生了AlphaGO等知名应用。对许多人来说,该框架展示了机器学习对现实世界的影响。然而,与当前的深度(监督)学习框架不同,深度强化学习工具包尚未支持足够的工程稳定性。事实上,最近的研究发现,当前最先进的深度强化学习算法对超参数的选择过于敏感,缺乏稳定性,并且可重复性差。这表明可能需要重新审视深度强化学习方法的概念基础。具体来说,这项研究要解决的重要问题是:深度强化学习的当前实践在多大程度上反映了其概念基础框架的原则?本文重点介绍深度强化学习。策略梯度方法,一种广泛使用的深度强化学习算法。研究目标是探索这些方法的当前最先进实现在多大程度上体现了一般策略梯度框架的关键原语。本文首先研究了重要的深度策略梯度方法近端策略优化(PPO)。研究发现,PPO的性能很大程度上依赖于非核心算法的优化,这表明PPO的实际成功可能无法用其理论框架来解释。这一观察结果促使研究人员进一步研究策略梯度算法及其与底层框架的关系。研究人员仔细检查了这些算法在实践中展示的关键强化学习原语。具体来说,我们研究:GradientEstimation:研究发现,即使提高了agent的奖励,用于更新参数的梯度估计通常与真实梯度不相关。价值预测:实验表明,价值网络能够训练并成功解决监督学习任务,但无法拟合真实的价值函数。此外,使用价值网络作为基线函数只会稍微减少梯度估计的方差(但会显着提高代理的性能)。OptimizingLandscape:研究发现,优化Landscape往往无法反映其真实奖励的底层Landscape,通常在相关样本制度中表现不佳。置信区域:研究发现,深度策略梯度算法有时会与置信区域产生理论冲突。事实上,在近端策略优化中,这些冲突源于算法设计中的基本问题。研究人员认为,上述问题和我们缺乏相关理论知识是造成深度强化学习脆弱性和可复现性低的主要原因。这表明构建可信赖的深度强化学习算法需要放弃以前以基准为中心的评估方法,以便对这些算法的非直觉行为进行多方面的理解。论文:深度策略梯度算法真的是策略梯度算法吗?论文链接:https://arxiv.org/pdf/1811.02553.pdf摘要:本文研究了深度策略梯度算法在多大程度上反映了促进其发展的底层概念框架。我们根据该框架的关键要素对当前最先进的方法进行了精细分析,包括梯度估计、价值预测、最优景观和置信区域分析。我们发现,从这个角度来看,深度策略梯度算法的行为往往偏离其概念框架的预测。我们的分析开启了巩固深度策略梯度算法基础的第一步,特别是,我们可能需要放弃当前以基准为中心的评估方法。检查深度策略梯度算法的原语1.梯度估计的质量策略梯度方法的核心前提是适当目标函数上的随机梯度上升会产生好的策略。具体来说,这些算法使用(代理)奖励函数的梯度作为原语:这些方法理论背后的潜在假设是我们可以获得梯度的合理估计,即我们可以使用经验均值准确估计预期项多于。因此,研究人员对这一假设在实践中的有效性感兴趣。我们计算的梯度估计有多准确?为了解决这个问题,研究人员使用最自然的指标来评估估计的质量:经验方差和梯度估计向“真实”梯度的收敛。图2图2:梯度估计的经验方差作为MuJoCo人形任务中状态-动作对数量的函数,x轴为状态-动作对,y轴为梯度估计的经验方差。图3图3:梯度估计收敛到MuJoCo人形任务上的“真实”所需梯度。2.价值预测图4图4:经过训练以解决MuJoCoWalker2d-v2任务的代理的设置状态-动作对的价值预测质量(以平均相对误差MRE衡量)。3.探索最优景观策略梯度算法的另一个基本假设是,对策略参数使用一阶更新可以导致更好的策略性能。那么接下来我们转向这个假设的有效性。图6:TRPO在Humanoid-v2MuJoCo任务上的真实奖励函数景观。图8:PPO在Humanoid-v2MuJoCo任务上的真实奖励函数和代理奖励函数的概况。4.优化置信区域图9图9:经过训练以解决MuJoCo人形机器人任务的代理在每一步的平均奖励、最大比率、平均KL和最大与平均KL。为深度强化学习打下更好的基础深度强化学习算法植根于基础良好的经典强化学习框架,并在实践中显示出巨大的潜力。然而,研究调查显示,这个底层框架无法解释深度强化学习算法的大部分行为。这种分裂使我们无法深入理解这些算法成功(或失败)的原因,并且是解决深度强化学习面临的重要挑战(例如普遍的脆弱性和可重复性差)的重大障碍。为了解决这种分类问题,我们需要开发更接近底层理论的方法,或者构建一个理论来捕捉现有策略梯度算法成功的原因。无论哪种情况,第一步都是找出理论与实践之间的分歧点。这部分将分析和巩固上一章的发现和结果。梯度估计。上一章的分析表明,策略梯度算法使用的梯度估计质量很差。即使代理正在改进,此类梯度估计通常也与真实梯度几乎没有相关性(参见图3)并且彼此不相关(参见图2)。这表明遵循现有理论需要算法来获得更好的梯度估计。或者,我们需要扩展理论来解释为什么现代策略梯度算法能够在如此差的梯度估计下取得成功。价值预测。调查结果说明了两个关键问题。第一,虽然价值网络成功地解决了它接受训练的监督学习任务,但它不能准确地模拟“真实”的价值函数。第二,使用价值网络作为基线减少了梯度方差。但与“真实”值函数提供的方差缩减程度相比,实在是太少了。这些现象促使我们发问:无法对真实价值函数建模是不可避免的吗?价值网络在策略梯度方法中的真正作用是什么?最大化景观。从上一章可以看出,现代策略梯度算法优化后的Landscape通常不能反映底层真实reward的Landscape。事实上,在策略梯度方法使用的采样方案中,真实奖励的景观是嘈杂的,代理奖励函数往往具有误导性。因此,我们需要深入理解为什么这些方能成功解决此类问题,更广泛地说,如何更准确地展示真实奖励函数的景观。置信区域近似。该研究的结果表明,政策需要在局部相似可能有多种原因,包括嘈杂的梯度估计、不良的基线函数和代理景观错位。基础理论的置信区域优化不仅没有意识到这些因素,而且很难将该理论转化为有效的算法。深度策略梯度方法因此放松了对置信区域的约束,这使得它们的性能难以理解和分析。因此,我们需要一种更严格地执行信任区域的技术,或者更严格的信任区域松弛理论。【本文为栏目组织《机器之心》微信公众号《机器之心(id:almosthuman2014)》原文翻译】点击此处查看作者更多好文
