当前位置: 首页 > 科技观察

谁说RL智能体只能在线训练?谷歌发布新的离线强化学习范式

时间:2023-03-22 16:25:10 科技观察

为了避免分布不匹配,强化学习的训练必须与在线环境交互吗?谷歌的这项最新研究从优化的角度为我们提供了离线强化学习研究的新思路,即强大的RL算法在足够大和多样化的离线数据集上训练时可以产生高质量的行为。本文的训练数据集和代码都是开源的。机器之心友情提示,训练数据集一共包含60个Atari游戏环境,谷歌称其大小约为ImageNet的60x3.5倍。“离策略学习的潜力仍然诱人,但实现它的最佳方式仍然是个谜。”—Sutton&Barto(《强化学习导论》的作者)大多数强化学习算法都假设代理人主动和在线环境交互并从它收集的经验中学习。将这些算法应用于现实世界的问题很困难,因为从现实世界收集的更多数据可能样本效率极低,并会引入意外行为。而那些运行在模拟环境中的算法,需要高保真模拟器,所以构建起来非常困难。然而,对于许多现实世界的强化学习应用,之前已经收集了大量的交互数据,可以用来训练在上述现实世界问题中可行的强化学习代理,同时通过结合以前丰富的经验来提高泛化性能.现有的交互数据支持离线强化学习的有效训练,这是一种完全脱离策略的强化学习设置,代理从固定数据集中学习而不与环境交互。离线强化学习有助于:1)使用现有数据预训练强化学习代理;2)基于强化学习算法利用固定交互数据集的能力对强化学习算法进行实验评估;3)对现实世界问题的影响。然而,由于在线交互与固定数据集中交互数据分布的不匹配,离线强化学习面临着巨大的挑战。也就是说,如果受过训练的代理人采取与数据收集代理人不同的行动,我们不知道要提供什么奖励。RL与在线交互与离线RL的流程图比较。在这篇题为“离线强化学习的乐观观点”的论文中,GoogleBrain团队的研究人员根据DQN代理记录的经验提出了一个简单的实验设置,用于Atari2600游戏中的离线强化学习。他们表明,如果不对任何不匹配分布进行显式更正,仍然有可能训练出性能优于使用标准off-policyRL算法收集的数据的代理。同时,研究人员还提出了一种鲁棒的RL算法,该算法在离线RL中显示出令人印象深刻的结果,称为随机集成混合(REM)。总的来说,研究人员提出了一种新颖的优化观点,其中在足够大和多样化的离线数据集上训练的鲁棒RL算法产生高质量的行为,支持新兴的数据驱动RL范例。为了促进离线RL方法的开发和评估,研究人员公开了他们的DQN回溯数据集,并开源了论文的代码。论文链接:https://arxiv.org/pdf/1907.04543.pdf项目地址:https://github.com/google-research/batch_rl基于不同RL算法的不同策略和离线强化学习总结如下:Onlinedifferent策略RLAgents(如DQN)仅通过接收来自游戏屏幕的图像信息,而无需任何其他关于游戏的知识,在Atari2600游戏中实现了与人类玩家相同的性能。在给定的环境状态下,DQN根据如何最大化未来奖励(例如Q值)来估计动作的有效性。此外,当前使用价值函数分布的RL算法(例如QR-DQN)估计所有可能的未来奖励的分布,而不是估计每个状态-动作对的单个期望值。像DQN和QR-DQN这样的代理被认为是“在线”算法,因为它们在优化策略和使用优化策略之间交替来收集更多数据。理论上,离策略RL智能体可以从任何策略收集的数据中学习,而不仅仅是被优化的策略。然而,最近的工作表明,标准的离策略代理在离线RL设置中会出现分歧或表现不佳。为了解决上述问题,之前的研究提出了一种对学习到的策略进行正则化的方法,使其策略更新接近离线交互数据集。专为离线RL设计的DQN回溯数据集研究人员首先构建了DQN回溯数据集以重新访问离线RL。数据集是使用DQN代理在60个Atari2600游戏中各训练2亿步得到的,并使用粘性动作(stickyaction)使问题更具挑战性,即有25%的概率执行前面的代理人的行动。动作,而不是当前动作。在这60场比赛中,对于每场比赛,我们训练5个不同初始化参数的DQN代理,并将训练过程中产生的所有(状态、动作、奖励、下一状态)元组存储在5个回溯数据集中,共生成300个数据集.然后使用此DQN回溯数据集来训练离线RL代理,而无需与环境进行任何交互。每个游戏回溯数据集的大小约为ImageNet的3.5倍,包含优化在线DQN时中间策略生成的所有样本。使用DQN回溯数据集在Atari游戏上进行离线强化学习。在DQN回溯数据集上训练离线代理研究人员在DQN回溯数据集上训练DQN和价值函数分布QR-DQN的变体。虽然离线数据集包含了DQN代理经历过的数据,并且这些数据会随着训练过程进行相应的改进,但研究人员将离线代理与训练后获得的性能最好的在线DQN代理进行了比较(即完全训练的DQN)进行了比较。对于每场比赛,他们使用在线回报评估5个训练有素的离线代理,并找到最好的平均表现。除了少数具有相同数据量的游戏外,离线DQN在所有游戏中的表现都低于经过全面训练的在线DQN。另一方面,离线QR-DQN在大多数游戏中优于离线DQN和完全训练的DQN。这些结果表明,可以使用标准深度RL算法优化强大的离线代理。此外,离线QR-DQN和DQN之间的性能差距表明它们利用离线数据的能力也存在差异。离线DQN结果。离线QR-DQN结果。两个强大的离线RL代理在在线RL中,代理选择它认为会带来高回报的动作,然后接收纠正反馈。此外,由于无法在离线RL中收集额外的数据,因此有必要使用固定的数据集来推断泛化能力。借助使用模型集成来提高泛化能力的监督学习方法,研究人员提出了以下两个新的离线RL代理:EnsembleDQN是DQN的简单扩展,它训练多个Q值估计并将它们取平均值以进行评估;RandomEnsembleMixture(REM)是一个易于实现的DQN扩展,其灵感来自于Dropout。REM的核心思想是如果Q值有多个估计,那么Q值估计的加权组合也成为Q值的一个估计。因此,REM在每次迭代中随机组合多个Q值估计,并使用这种随机组合进行鲁棒训练。DQN,价值函数分布QR-DQN,具有相同多头机制的所需RL变体QR-DQN架构,集成DQN和REM的神经网络架构。为了更高效地利用DQN回溯数据集,研究人员在训练离线agent时将训练迭代次数设置为在线DQN训练的5倍,性能如下图所示。离线REM优于离线DQN和离线QR-DQN。并且,与强大的价值函数分配代理(经过全面训练的在线C51)的性能比较表明,离线REM的收益高于C51。离线REM与基线方法的性能比较。在Atari游戏中使用标准训练方案时,在线REM的性能与标准在线RL设置中的QR-DQN相当。这表明我们可以利用从DQN回溯数据集和离线RL设置中获得的见解来构建有效的在线RL方法。在线REM与基线方法的性能比较。结果比较:离线RL中的重要因素为什么以前的标准RL代理在离线设置中反复失败?谷歌研究人员总结了他们的研究与以往研究之间的几个重要差异:离线数据集大小。Google用来训练离线QR-DQN和REM的数据集是对整个DQN回溯数据集随机下采样得到的简化数据,同时保持相同的数据分布。与监督学习类似,模型性能会随着数据集大小的增加而提高。REM和QR-DQN仅使用整个数据集的10%即可实现接近完整DQN的性能;离线数据集组成。研究人员在DQN回溯数据集中每个游戏的前2000万帧上训练离线强化学习代理。离线REM和QR-DQN在这个低质量数据集上的表现优于最佳策略,这表明如果数据集足够多样化,标准RL代理也可以在离线设置中表现良好;选择。有人认为,标准的离策略智能体在离线训练时在连续控制任务中表现不佳。然而,谷歌研究人员发现,当在大型、多样化的离线数据集上训练时,最近的连续控制代理(如TD3)的性能可与复杂的离线代理相媲美。使用较低质量的数据集在离线设置中训练强化学习代理。来自ProspectGoogle的这项研究表明,在使用不同策略从大量离线数据中学习时,需要严格表征神经网络泛化的作用。另一个重要方向是通过对DQN回溯数据集进行下采样,使用各种数据收集策略对离线RL进行基准测试。谷歌研究人员目前采用在线政策评估,而“真正的”离线RL需要离线政策评估以进行超参数调整和提前停止。最后,基于模型的强化学习和自监督学习方法也很有希望用于离线强化学习。