近日,一项研究引起了学术界的广泛关注和热议。据悉,DeepMind和谷歌已经关闭内部会议进行讨论。拥有众多粉丝的youtube博主Yannickicher甚至制作了一个半小时的视频来解释这篇论文。学者们甚至用“彻底改变游戏规则”、“RL的重大发展”、“这令人印象深刻”来形容它。团队老师本人也在推特上表示:在使用相同数据的情况下,这是RL智能体首次直接从像素获得超越人类的性能!这将使一般强化学习更接近真实场景,例如机器人的采样效率将是重点。现在,让我们隆重介绍一下本文的主角——EfficientZero。EfficientZero算法是在清华大学交叉信息研究院高阳团队的一项新研究《使用有限数据掌控Atari游戏》(MasteringAtariGameswithLimitedData)中提出的。EfficientZero的性能在2亿帧时接近DQN(深度Q-学习),但消耗的数据少500倍!在接近真实世界复杂情况的Atari游戏中,从零训练到仅两个小时,它可以在相同条件下达到人类平均水平的190.4%,或中值性能116.0%。论文链接:https://arxiv.org/abs/2111.00210#样本效率一直是强化学习中最“头疼”的挑战,重要的方法需要数百万(甚至数十亿)的环境步骤来训练。一种从MuZero模型改进而来的高效视觉RL算法——EfficientZero,该模型从零开始训练,最终在Atari仅用两个小时的训练数据就超越了同等条件下的人类平均水平。通过将基于树的搜索与学习模型相结合,MuZero可以在一系列具有挑战性和视觉复杂的领域中实现出色的性能,而无需了解底层动态。AI科技评论在之前的文章中曾报道过MuZero:DeepMind又出大动作了!新算法MuZero登顶Nature,AI离人类规划又近了一步。那么为什么选择雅达利游戏呢?雅达利游戏场景众多,规则各异,在一定程度上适应了复杂的现实世界环境。因此,长期以来一直作为验证强化学习算法在多因素环境下性能的性能测试标准。EfficientZero的低样本复杂度和高性能可以使强化学习更接近现实世界的适用性。如图所示,EfficientZero在人类平均标准得分中位数方面分别比之前的SoTA高出170%和180%。是第一个在Atari100k基准测试中超越人类平均表现的算法。强化学习在具有挑战性的问题上取得了巨大的成功。比如2015年DeepMind开发的DQN网络,打败中国围棋世界冠军柯洁的AlphaGo,还有即将在Dota2中打团战的OpenAIFive等等。但这些都是在海量数据的“肩膀”上训练出来的策略。例如,AlphaZero从国际象棋初学者到顶尖高手需要完成2100万局棋,而一名职业棋手一天只能完成5局左右,这意味着人类棋手需要11500年才能拥有相同的经验值。在样本复杂性不成问题的模拟和游戏中应用RL算法。当涉及机器人操作、医疗保健和广告推荐系统等现实生活问题时,在保持低样本复杂性的同时实现高性能至关重要。在过去的几年里,我们在实例有效的强化学习方面取得了许多成就。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都发生在基于状态的环境中。例如,在鱼和熊掌比比皆是的基于图像的环境中,MuZero和DreamerV2表现出超人的性能,但样本效率不高;SimPLe等其他方法非常有效,但性能不佳。最近,数据增强和自我监督方法应用了无模型方法,并在数据高效机制方面取得了一些成功。然而,它仍然没有达到人类的期望。为了提高样本效率并保持卓越的性能,自监督环境模型、减轻模型复合错误的机制以及纠正偏离策略问题的方法对于基于模型的视觉RL代理至关重要。EfficientZero在MuZero的基础上改进了这三点:“使用时间对比一致性,减少预测收益的不确定性(leatoryuncertainty)和修正离策略值偏移(off-policycorrection)。”在DeepMindControl(DMControl)套件的模拟机器人环境实验中,EfficientZero取得了最先进的性能,优于SAC直接从真实状态学习的模型状态,进一步验证了EfficientZero的有效性。被有限数据“掐住”深度强化学习算法“喉咙”的可能不复存在。高洋:博士,清华大学交叉信息研究所助理教授,毕业于加州大学伯克利分校博士,毕业于清华大学计算机系,获学士学位,主要研究计算机视觉与机器人。
