当前位置: 首页 > 科技观察

谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳

时间:2023-03-19 09:55:17 科技观察

谷歌实现了两种新的强化学习算法“肩并肩”DQN,具有更好的泛化性能优化技术可用于学习新的、可分析和可推广的RL算法!他们发现的两种算法可以推广到更复杂的环境,例如带有视觉观察的Atari游戏。这个成就让强化学习算法越来越好!具体的“优秀方法”请看下文:损失函数表示为计算图首先,针对强化学习算法研究中的难点,研究者认为一种可能的解决方案是设计元学习方法。这种方法可以设计新的RL算法,自动泛化到各种各样的任务。受神经架构搜索(NAS)在代表神经网络结构的图空间中搜索的想法的启发,研究人员通过将RL算法的损失函数表示为计算图来元学习RL算法。损失函数使用有向无环图表示,节点分别表示输入、运算符、参数和输出。这种表示的好处有很多,一般来说,它可以用来学习新的、可解析和可泛化的RL算法。并使用PyGlove库实现此表示。基于进化的元学习方法接下来,研究人员使用基于进化的元学习方法来优化他们感兴趣的RL算法。这个过程大致如下:一个新提出的算法必须首先在障碍物环境中表现良好,然后才能在一组更困难的环境中进行训练。算法性能被评估并用于更新种群,其中性能更好的算法进一步变异为新算法。在训练结束时,性能最佳的算法在测试环境中进行评估。该实验中的人口规模约为300人。研究人员观察,经过2万到5万次突变后,发现候选损失函数的进化需要大约3天的训练时间。为了进一步控制训练成本,他们植入了人工设计的RL算法,例如。初始种群中的DQN(深度Q学习算法)。最后,他们找到了两种表现出良好泛化性能的算法:一种是DQNReg,它在DQN的基础上增加了加权惩罚(weightedpenalty),使其成为标准的平方贝尔曼误差。第二个,DQNClipped,更复杂,尽管它的主导项有一个简单的形式——Q的最大值和平方贝尔曼误差(常数模)。这两种算法都可以看作是一种对Q值进行正则化的方法,都以不同的方式解决Q值过高的问题。最后DQNReg低估了Q,而DQNClipped慢慢接近groundtruth,更不用说高估了。在性能评估方面,通过一组经典的控制环境,两种算法都可以在密集奖励任务(CartPole、Acrobot、LunarLander)中保持基线,并在稀疏奖励任务(MountainCar)中优于DQN。其中,在一组测试各种不同任务的稀疏奖励MiniGrid环境中,研究人员发现DQNReg在训练和测试环境中的样本效率和最终性能方面都大大优于基线。此外,在一些MiniGrid环境中,对DDQN(DoubleDQN)和DQNReg的性能进行可视化对比发现,当DDQN还在努力学习所有有意义的行为时,DQNReg已经可以有效地学习到最优行为。最后,尽管本研究的训练是在非基于图像的环境中进行的,但在基于图像的Atari游戏环境中观察到了DQNReg算法的改进性能!这表明,在具有可泛化算法表示的廉价但多样化的训练环境集上进行元训练可以实现激进的算法泛化。该研究成果所写的论文已被ICLR2021接受。未来研究人员将扩展更多不同的RL设置,例如Actor-Critic算法或离线RL。