通用智能需要解决多个领域的任务。强化学习算法被认为具有这种潜力,但它因适应新任务所需的资源和知识而受到阻碍。在DeepMind的一项新研究中,研究人员展示了一种通用的、可扩展的基于世界模型的算法DreamerV3,该算法在具有固定超参数的广泛领域中优于以前的方法。DreamerV3符合的领域包括连续和离散动作、视觉和低维输入、2D和3D世界、不同的数据量、奖励频率和奖励级别。值得一提的是,DreamerV3是第一个在没有人类数据或主动教育的情况下从零开始在《我的世界》(Minecraft)中收集钻石的算法。研究人员表示,这种通用算法可以使强化学习得到广泛应用,并有可能扩展到硬决策问题。钻石是《我的世界》游戏中最受欢迎的物品之一,也是游戏中最稀有的物品之一,可用于制作游戏中大部分最强的工具、武器和盔甲。由于钻石只存在于最深的岩层中,产量很低。DreamerV3是第一个在没有人类演示或手工制作课程的情况下在我的世界中收集钻石的算法。该视频显示它收集了第一颗钻石,发生在30M环境步数/17天的游戏时间内。如果你对AI下Minecraft一无所知,NvidiaAI科学家JimFan表示,与AlphaGo下围棋相比,Minecraft的任务数量是无限的,环境变化是无限的,知识也有隐藏的信息。对于人类来说,在Minecraft中探索和建造很有趣,而围棋有点复杂。对于AI来说,情况正好相反。6年前AlphaGo打败了人类冠军,但在我的世界中还没有可以匹敌人类高手的算法。早在2019年夏天,Minecraft的开发公司就提出了“钻石挑战赛”,悬赏游戏中能够找到钻石的AI算法。在NeurIPS2019之前,在提交的660多个参赛作品中,没有AI可以胜任这项任务。但是DreamerV3的出现改变了这种情况。钻石是一项高度结合的长期任务,需要复杂的勘探和规划。新算法可以在没有任何人工数据辅助的情况下收集钻石。效率可能还有很大的提升空间,但AI代理现在可以学习从头开始收集钻石这一事实本身就是一个重要的里程碑。DreamerV3方法概述论文《Mastering Diverse Domains through World Models》:论文链接:https://arxiv.org/abs/2301.04104v1DreamerV3算法由三个神经网络组成,分别是worldmodel(世界模型)、critic和actor。这三个神经网络基于回放经验同时训练,无需共享梯度。下图3(a)展示了worldmodel学习,图(b)展示了ActorCritic学习。为了跨领域取得成功,这些组件需要适应不同的信号幅度并稳健地平衡其目标中的项。这不仅对同一领域内的类似任务具有挑战性,而且对具有固定超参数的不同领域的学习也具有挑战性。DeepMind首先解释用于预测未知量级的简单变换,然后介绍世界模型、评论家、参与者及其稳健的学习目标。发现结合KL平衡和自由位允许世界模型在不调整的情况下学习,缩小大回报实现固定策略熵正则化器而不夸大小回报。重建输入以及预测奖励和价值的Symlog预测具有挑战性,因为它们的规模可能因领域而异。使用平方损失来预测大对象会导致发散,而绝对损失和Huber损失会阻碍学习。另一方面,基于运行统计的标准化目标将非平稳性引入优化。因此,DeepMind提出符号对数预测作为解决这一难题的简单方法。为此,具有输入x和参数θ的神经网络f(x,θ)学习预测其目标y的转换版本。为了读出这个网络的预测y^,DeepMind使用了一个逆变换,如下面的等式(1)所示。从下面的图4中可以看出,使用对数作为转换无法预测具有负值的目标。因此,DeepMind从双对称对数族中选择了一个函数,命名为symlog,并将其作为变换,并使用symexp函数作为反函数。symlog函数压缩大正值和负值的大小。DreamerV3在decoder、rewardpredictor和critic中使用symlogpredictions,也使用symlogfunction压缩到encoder的输入。世界模型学习世界模型通过自动编码器学习感官输入的紧凑表示,并通过预测未来的表示和潜在行动的奖励来进行规划。如上图3所示,DeepMind将世界模型实现为循环状态空间模型(RSSM)。首先,编码器将感官输入x_t映射到随机表示z_t,然后具有循环状态h_t的序列模型预测这些表示的序列给定过去的动作a_t?1。h_t和z_t的串联形成模型状态,从中预测奖励r_t和情节连续标记c_t∈{0,1}并重建输入以确保信息表示,如下面的等式(3)所示。下面的图5可视化了worldworld的长期视频预测。编码器和解码器使用卷积神经网络(CNN)进行视觉输入,使用多层感知器(MLP)进行低维输入。动态、奖励和持久预测器也是MLP,这些表示是从softmax分布的向量中采样的。DeepMind在采样步骤中使用了直通梯度。ActorCriticLearningActorCritic神经网络完全从世界模型预测的抽象序列中学习行为。在环境交互过程中,DeepMind通过从参与者网络中采样来选择动作,而无需进行前向规划。演员和评论家对模型状态进行操作,这反过来又可以受益于从世界模型中学习到的马尔可夫表示。参与者的目标是最大化每个模型状态下的预期回报,贴现因子γ=0.997。为了考虑超出预测范围T=16的奖励,评论家学习预测当前参与者行为下每个状态的奖励。从重放输入的表示开始,动态预测器和参与者产生一系列预期模型状态s_1:T、动作a_1:T、奖励r_1:T和延续标志c_1:T。为了估计预测范围之外的奖励的奖励,DeepMind计算了自举的λ回报,它整合了预期奖励和价值。实验结果DeepMind进行了广泛的实证研究,以评估DreamerV3在固定超参数下跨不同领域(超过150个任务)的通用性和可扩展性,并与文献中现有的SOTA方法进行比较。此外,DreamerV3被应用于具有挑战性的视频游戏《我的世界》。对于DreamerV3,DeepMind通过直接报告随机训练策略的性能并避免使用确定性策略进行单独评估来简化设置。所有DreamerV3代理都在NvidiaV100GPU上进行训练。下面的表1提供了基准的概述。为了评估DreamerV3的通用性,DeepMind在七个领域进行了广泛的实证评估,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励尺度、2D和3D世界以及程序生成。下面图1中的结果发现,DreamerV3在所有领域都实现了强大的性能,并且在其中的4个领域都优于之前的所有算法,同时在所有基准测试中使用了固定的超参数。更多技术细节和实验结果请参考原论文。
