目前,Transformers已经成为序列建模的强大神经网络架构。预训练变压器的一个显着特性是它们能够通过提示调节或上下文学习来适应下游任务。在对大型离线数据集进行预训练后,大型转换器已被证明可以有效地泛化到文本补全、语言理解和图像生成等下游任务。最近的工作表明,通过将离线强化学习(RL)视为顺序预测问题,Transformer还可以从离线数据中学习策略。陈等人的工作。(2021)表明transformers可以通过模仿学习从离线RL数据中学习单任务策略,随后的工作表明transformers可以在同域和跨域设置中提取多任务策略。这些工作都展示了提取通用多任务策略的范式,即首先收集大规模和多样化的环境交互数据集,然后通过顺序建模从数据中提取策略。这种通过模仿学习从离线强化学习数据中学习策略的方法被称为离线策略蒸馏(OfflinePolicyDistillation)或策略蒸馏(PolicyDistillation,PD)。PD简单且可扩展,但其主要缺点之一是生成的策略不会随着与环境的额外交互而逐步改进。例如,Google的通才代理Multi-GameDecisionTransformers学习了一个可以玩很多Atari游戏的返回条件策略,而DeepMind的通才代理Gato学习了一个解决多样化环境中任务的策略。不幸的是,这两个代理都无法通过反复试验在上下文中改进策略。所以PD方法学习的是策略而不是强化学习算法。在最近的一篇DeepMind论文中,研究人员假设PD未能通过反复试验改进的原因是它训练的数据未能显示学习进度。当前的方法要么是在没有学习的情况下从数据中学习策略(例如通过蒸馏固定专家策略),要么是通过学习从数据中学习策略(例如RL代理的回放缓冲区),但后者的上下文大小(太小)无法捕获策略改进。论文地址:https://arxiv.org/pdf/2210.14215.pdf研究人员的主要观察是,RL算法训练中学习的顺序性质原则上可以将强化学习本身建模为因果序列预测问题。具体来说,如果transformer的上下文足够长,可以包含学习更新带来的策略改进,那么它应该不仅可以表示一个固定的策略,还可以表示一个策略改进算法,关注的是状态、动作和奖励前几集。儿子。这开辟了一种可能性,即任何RL算法都可以通过模仿学习提炼成足够强大的序列模型,例如transformers,并将这些模型转换为上下文RL算法。研究人员提出了算法蒸馏(AlgorithmDistillation,AD),这是一种通过优化RL算法学习历史中的因果序列预测损失来学习上下文策略改进算子的方法。如下图1所示,AD由两部分组成。首先通过保留RL算法在大量单个任务上的训练历史来生成大型多任务数据集,然后transformer模型通过使用先前的学习历史作为其上下文来对动作进行因果建模。由于策略在源RL算法的训练过程中不断改进,因此AD必须学习改进算子,以便在训练历史中的任何给定点准确地模拟动作。至关重要的是,transformer上下文必须足够大(即跨情节)以捕获训练数据的改进。研究人员表示,通过使用具有足够大上下文的因果变换器来模仿基于梯度的RL算法,AD可以充分增强上下文中新任务的学习。研究人员在许多需要探索的部分可观察环境中评估了AD,包括来自DMLab的基于像素的Watermaze,并表明AD能够进行上下文探索、时间可靠性分配和泛化。另外,AD学习的算法比生成transformer训练源数据的算法效率更高。最后但同样重要的是,AD是第一个通过使用模仿损失对离线数据进行顺序建模来展示上下文强化学习的人。方法在生命周期中,强化学习代理需要在执行复杂动作时表现良好。对于一个代理人来说,无论其所处的环境、内部结构和执行方式如何,都可以看作是在过去经验的基础上完成的。可以用下面的形式表示:研究者同时将“长历史条件化”策略看成一种算法,得到:其中Δ(A)表示动作空间A上的概率分布空间。方程(3)表明该算法可以在环境中展开以生成观察、??奖励和动作序列。为了简单起见,本研究使用P来表示算法,环境(即任务)所使用的学习历史由算法来表示,从而为任何给定的任务生成。可以得出,研究人员使用大写拉丁字母来表示随机变量,如O、A、R及其对应的小写形式o、α、r。通过将算法视为长期历史条件策略,他们假设任何生成学习历史的算法都可以通过执行行为的行为克隆转化为神经网络。接下来,该研究提出了一种方法,该方法提供一个代理来学习一个在其生命周期内具有行为克隆的顺序模型,以将长期历史映射到动作分布。实际实施在实践中,本研究将算法蒸馏(AD)过程实施为一个两步过程。首先,通过在许多不同任务上运行单独的基于梯度的RL算法来收集学习历史数据集。接下来,训练具有多集上下文的序列模型来预测历史中的动作。具体算法如下:Experimental实验要求所使用的环境支持许多不能轻易从观察中推断出的任务,并且episode足够短以高效地训练cross-episodecausaltransformers。这项工作的主要目的是调查相对于以前的工作,在何种程度上学习了AD强化。实验对比了AD、ED(ExpertDistillation)、RL^2等,AD、ED、RL^2的评价结果??如图3所示。研究发现AD和RL^2都可以学习从中采样的任务上下文中的训练分布,而ED不能,尽管在分布内评估时ED确实比随机猜测做得更好。围绕下图4,研究人员回答了一系列问题。AD是否表现出上下文强化学习?结果表明,AD的情境强化学习可以在所有环境中学习,而ED无法在大多数情境中探索和学习。AD可以从基于像素的观察中学习吗?结果表明,AD通过上下文RL最大化情境回归,而ED无法学习。AD能否学习比生成源数据的算法更有效的RL算法?结果表明,AD的数据效率明显高于源算法(A3C和DQN)。是否可以通过演示加速AD?为了回答这个问题,该研究在测试集数据中保留了源算法历史上不同点的采样策略,然后用该策略数据预填充AD和ED的上下文,并在环境中运行这两种方法在暗室中,将结果绘制在图5中。虽然ED保持输入策略的性能,但AD在上下文中改进每个策略,直到它接近最优。重要的是,输入策略越优,AD改进它的速度就越快,直到达到最优。有关更多详细信息,请参阅原始论文。
