在目前的序列建模任务中,Transformer是最强大的神经网络架构,预训练的Transformer模型可以使用prompt作为条件或上下文学习(上下文学习)以适应不同的下游任务。大型预训练Transformer模型的泛化能力已经在文本补全、语言理解、图像生成等多个领域得到验证。从去年开始,已有相关工作证明,通过将离线强化学习(offlineRL)视为序列预测问题,模型可以从离线数据中学习策略。然而,目前的方法要么从不包含学习的数据中学习策略(例如蒸馏固定的专家策略),要么从确实包含学习的数据中学习(例如代理的回放缓冲区),但由于其上下文太小捕捉政策改进。DeepMind的研究人员观察到,原则上,强化学习算法训练中学习的顺序性质可以将强化学习过程本身建模为“因果序列预测问题”。具体来说,如果Transformer的上下文足够长以包含由于学习更新而导致的策略改进,那么它应该不仅能够表示固定策略,还可以通过关注前几集的状态、动作和奖励来表示策略改进运算符。这也提供了一种技术可行性,即任何RL算法都可以通过模仿学习提炼成足够强大的序列模型,并转化为in-contextRL算法。基于此,DeepMind提出了算法蒸馏(AlgorithmDistillation,AD),通过建立因果序列模型,将强化学习算法提取到神经网络中。论文链接:https://arxiv.org/pdf/2210.14215.pdf算法蒸馏将学习强化学习看成一个跨episode的序列预测问题,通过sourceRL算法生成学习历史数据集,然后利用学习历史作为Context,一个因果Transformer通过自回归预测行为进行训练。与学习后或专家序列顺序策略预测结构不同,AD能够完全在上下文中改进其策略,而无需更新其网络参数。Transformers收集自己的数据并最大化新任务的奖励;无需提示或微调;在权重冻结的情况下,变形金刚探索、利用并最大化上下文回报!Gato等专家蒸馏方法无法探索也无法最大化回报。实验结果表明,AD可以在具有稀疏奖励、组合任务结构和基于像素的观察的各种环境中执行强化学习,并且AD学习比生成源数据的RL算法具有更高的数据效率。AD也是第一个通过使用模仿损失对离线数据进行顺序建模来展示上下文强化学习的人。AlgorithmDistillation2021年,一些研究人员首先发现Transformer可以通过模仿学习从离线RL数据中学习单任务策略,然后扩展到在同域和跨域设置中提取多任务策略。这些工作提出了一种用于提取一般多任务策略的有前途的范例:首先收集大量多样的环境交互数据集,然后通过序列建模从数据中提取策略。通过模仿学习从离线强化学习数据中学习策略的方法也称为离线策略蒸馏,简称策略蒸馏(PD)。虽然PD的思想非常简单,也非常容易扩展,但是PD有一个重大缺陷:生成的策略并不能从与环境的额外交互中获益。例如,MultiGameDecisionTransformer(MGDT)学习了一个可以玩大量Atari游戏的返回条件策略,而Gato学习了一个通过上下文推理任务解决不同环境任务的策略,但这两种方法都无法通过试验和错误。以改进其战略。MGDT通过微调模型的权重使Transformers适应新任务,而Gato则需要专家的演示提示才能适应新任务。简而言之,策略蒸馏方法学习策略而不是强化学习算法。研究人员假设,PolicyDistillation无法通过反复试验改进的原因是它是在没有显示学习进度的数据上训练的。算法蒸馏(AD)是一种通过优化RL算法学习历史中的因果序列预测损失来学习内在策略改进运算符的方法。AD由两个部分组成:1.通过保留RL算法在许多单独任务上的训练历史来生成大型多任务数据集;2.使用Transformer之前的学习历史作为背景对动作进行因果建模。随着策略在源RL算法的整个训练过程中得到改进,AD必须学习如何改进运算符,以便准确地模拟训练历史中任何给定点的动作。最重要的是,Transformer的上下文大小必须足够大(即跨时期)以捕获训练数据的改进。在实验部分,为了探索AD在in-contextRL能力方面的优势,研究人员将重点放在预训练后无法通过零样本泛化解决的环境,即每个环境都需要支持多个任务,并且无法从观察中轻易推断出任务的模型解决方案。同时,episode需要足够短,以便跨episode训练因果变形金刚。在AdversarialBandit、DarkRoom、DarkKey-to-Door、DMLabWatermaze四种环境的实验结果中可以看出,通过模仿基于梯度的RL算法,使用具有足够大上下文的因果Transformer,AD可以完全在上下文中强化学习新任务。AD能够进行上下文探索、时间信用分配和泛化。AD学习的算法比生成用于Transformer训练的源数据的算法具有更高的数据效率。PPT解说为了便于对论文的理解,论文第一作者MichaelLaskin在推特上发布了一份ppt解说。算法蒸馏实验表明,Transformer可以通过试错自主改进模型,无需更新权重,无需提示,无需微调。单个Transformer可以收集自己的数据并最大化其对新任务的奖励。尽管已经有许多成功的模型展示了Transformer如何在上下文中学习,但尚未证明Transformer可以加强上下文中的学习。为了适应新的任务,开发人员要么需要手动指定一个提示,要么需要调整模型。如果Transformer可以开箱即用地用于强化学习,那不是很好吗?但DecisionTransformers或Gato只能从离线数据中学习策略,无法通过反复实验自动改进。使用算法蒸馏(AD)的预训练方法生成的Transformer可以在上下文中得到增强。首先训练强化学习算法的多个副本来解决不同的任务并保留学习历史。一旦收集了学习历史的数据集,就可以训练Transformer来预测以前学习历史的动作。准确预测行动将迫使Transformer对政策改进进行建模,因为政策在历史上有所改进。整个过程就是这么简单,Transformer只是通过模仿动作进行训练,没有常见强化学习模型的Q值,没有长长的操作-动作-奖励序列,也没有像DTs那样的返回条件。在没有额外开销的强化学习的情况下,然后通过观察AD是否最大化新任务的奖励来评估模型。当Transformer探索、利用和最大化返回的上下文时,它的权重被冻结了!另一方面,专家蒸馏(与Gato最相似)无法探索或最大化回报。AD可以提取任何RL算法,研究人员尝试了UCB、DQNA2C,一个有趣的发现是AD在上下文RL算法学习中的数据效率更高。用户也可以输入prompt和suboptimaldemo,模型会自动改进策略,直到得到最优解!ExpertDistilledED只能保持次优的演示性能。仅当Transformer的上下文足够长以跨越多个情节时,上下文RL才会出现。AD需要足够长的历史记录才能进行有效的模型改进和识别任务。通过实验,研究人员得出以下结论:Transformer可以在上下文中执行RL带有AD的上下文RL算法比基于梯度的源RL算法更有效AD促进次优策略
