强化学习(RL)为顺序决策提供了一种数学形式,而深度强化学习(DRL)近年来也取得了长足的进步。然而,样本效率问题阻碍了深度强化学习方法在现实世界中的广泛应用。为了解决这个问题,一种有效的机制是在DRL框架中引入归纳偏差。在深度强化学习中,函数逼近器非常重要。然而,与监督学习(SL)中的架构设计相比,DRL中的架构设计问题研究仍然较少。大多数关于RL架构的现有工作都是由监督/半监督学习社区驱动的。例如,为了在DRL中处理基于高维图像的输入,通常的做法是引入卷积神经网络(CNN)[LeCunetal.,1998;Mnih等人,2015];处理部分可观察性(partialobservability)图像的常见做法是引入递归神经网络(RNN)[HochreiterandSchmidhuber,1997;Hausknecht和Stone,2015]。近年来,Transformer架构[Vaswanietal.,2017]表现出优于CNN和RNN的性能,并成为越来越多SL任务中的学习范式[Devlinetal.,2018;Dosovitskiy等人,2020年;董等人,2018]。Transformer架构支持远程依赖建模,并具有出色的可扩展性[Khanetal.,2022]。受SL成功的启发,人们对将Transformer应用于强化学习产生了浓厚的兴趣,希望将Transformer的优势应用到RL领域。Transformers在RL中的使用可以追溯到Zambaldi等人2018年的一项研究,其中自我注意机制被用于结构化状态表示的关系推理。随后,许多研究人员试图将自注意力应用于表征学习,以提取实体之间的关系,以实现更好的策略学习[Vinyalsetal.,2019;贝克等人,2019]。除了利用Transformers进行表示学习外,之前的工作还使用Transformers来捕获多个时间依赖性以处理部分可观察性问题[Parisottoetal.,2020;Parisotto和Salakhutdinov,2021]。离线强化学习[Levineetal.,2020]因其使用离线大规模数据集的能力而备受关注。受离线强化学习的启发,最近的研究表明,Transformer结构可以直接用作顺序决策的模型[Chenetal.,2021;Janneretal.,2021]并推广到多个任务和领域[Leeetal.,2022;卡罗尔等人,2022]。事实上,在强化学习中使用Transformer作为函数逼近器面临一些特殊的挑战,包括:强化学习代理(agent)的训练数据通常是当前策略的函数,这会导致在学习Transformer时出现非平稳性(非平稳性);现有的RL算法通常对训练期间的设计选择高度敏感,包括模型架构和模型容量[Hendersonetal.,2018];基于Transformer的架构通常受到高性能计算和内存成本的限制,这使得RL学习期间的训练和推理都非常昂贵。例如,在视频游戏的AI中,样本生成的效率(这在很大程度上影响训练性能)取决于RL策略网络和价值网络的计算成本[Yeetal.,2020a;伯纳等人,2019]。为了更好地推动强化学习的发展,来自清华大学、北京大学、致远人工智能研究院和腾讯的研究人员联合发表了强化学习中Transformer(TransformRL)的综述论文,总结了目前存在的方法和挑战,进行了探讨,并讨论了未来的发展方向。作者认为,TransformRL将在激发强化学习的潜力方面发挥重要作用。论文地址:https://arxiv.org/pdf/2301.03044.pdf论文整体结构如下:第2章介绍RL和Transformer的背景知识,然后简单介绍两者如何结合;第3章第4章描述了RL中网络架构的演变,以及RL中长期存在的挑战,这些挑战阻碍了对Transformer架构的广泛探索;在第四章中,论文作者对强化学习中的Transformer进行了分类,并讨论了当前具有代表性的方法;第五章总结并指出未来可能的研究方向。核心内容从论文的第三章开始。让我们来看看这篇论文的主要内容。RL中的网络架构在介绍TransformRL的分类方法之前,论文回顾了RL中网络架构设计的早期进展,并总结了其存在的挑战。作者认为Transformer是一种先进的神经网络架构,将有助于深度强化学习(DRL)的发展。函数逼近器的架构自DeepQ-Network[Mnihetal.,2015]的开创性工作以来,人们在DRL代理的网络架构方面做出了许多努力。强化学习中网络架构的改进分为两大类。一种是设计一种新的结构,结合RLinductivebias来降低训练policy或valuefunction的难度。例如,[Wang等人。2016]提出了一种决斗网络架构,其中一个网络用于状态值函数,另一个用于与状态相关的动作优势函数(actionadvantagefunction)。这种架构设计结合了inductivebias。另一个是研究常用的神经网络技术(如正则化、跳跃连接、批量归一化)是否可以应用于强化学习。例如,[Ota等人。2020]发现在使用在线特征提取器增强状态表示的同时增加输入维度可以帮助提高DRL算法的性能和样本效率。[辛哈等人。2020]为DRL代理提出了一种深度密集架构,使用残差连接进行有效学习和归纳偏置,以缓解数据处理不平等问题。[太田等人。2021]使用DenseNet[Huangetal.,2017]和解耦表示学习来改善大型网络的信息流和梯度。最近,由于Transformer的优越性能,研究人员尝试将Transformer架构应用于策略优化算法,但发现普通的Transformer设计无法在RL任务中达到理想的性能[Parisottoetal.,2020]。未来的挑战尽管过去几年基于Transformer的架构在SL方面取得了很大进展,但将Transformer应用于RL并不简单。在实践中,这提出了几个独特的挑战。从RL的角度来看,许多研究指出现有的RL算法对深度神经网络的架构非常敏感[Hendersonetal.,2018;Engstrom等人,2019年;Andrychowicz等人,2020]。首先,RL中数据收集和策略优化之间的范式交替导致非平稳训练。其次,RL算法通常对训练期间的设计选择高度敏感。[埃蒙斯等人。2021]表明谨慎选择模型架构和正则化对DRL代理的性能至关重要。从Transformer的角度来看,基于Transformer的架构存在内存占用大和延迟高的问题,这阻碍了它们的高效部署和推理。最近,许多研究都集中在围绕原始Transformer架构的计算和内存效率改进上,但大部分工作都集中在SL领域。在强化学习领域,Parisotto和Salakhutdinov提出将大容量的基于Transformer的学习器模型转化为小容量的actor模型,以避免Transformer的高推理延迟。然而,这种方法在内存和计算方面仍然很昂贵。目前,RL社区尚未充分探索高效或轻量级的Transformer。强化学习中的Transformers虽然Transformers一直是大多数监督学习研究的基础模型,但由于上述挑战,它们长期以来一直没有在RL社区中广泛使用。事实上,TransformRL的大多数早期尝试使用Transformer进行状态表示学习或提供记忆信息,同时仍然使用标准的RL算法进行代理学习,例如时间差分学习和策略优化。因此,尽管引入了Transformer作为函数逼近器,但这些方法仍然受到传统RL框架的挑战。直到最近,离线强化学习使得从大规模离线数据中学习最优策略成为可能。受离线RL的启发,最近的工作进一步将RL问题定义为具有固定经验的条件序列建模问题。这样做有助于绕过传统RL中的引导错误挑战,从而允许Transformer架构释放其强大的顺序建模功能。本文回顾了TransformRL的进展,并按分类学介绍了现有方法。作者将现有方法分为四类:表示学习、模型学习、顺序决策和通用代理。图2显示了相关类别的概览。TransformerforRepresentationLearning考虑到RL任务的顺序性质,使用Transformer编码器模块是合理的。事实上,RL任务中的各种序列都需要处理,例如局部每时间步序列(多实体序列[Vinyalsetal.,2019;Bakeretal.,2019],多智能体序列[Wenetal.,2022]),timeseries([Parisottoetal.,2020;Baninoetal.,2021]),etc.localper-timestepsequences这种方法的显着早期成功是使用Transformers来处理复杂的信息关于代理观察到的可变数量的实体。[赞巴尔迪等人。2018a]首先提出了关系推理,它通过多头点积注意力捕获结构化观察,随后是AlphaStar[Vinyalsetal.,2019]在具有挑战性的多智能体环境(星际争霸II)中实现处理多实体观察。在这种称为EntityTransformer的机制中,观察以以下形式编码:其中e_i表示代理对实体i的观察,可以直接从整个观察中切片,也可以由实体分词器给出。一些后续工作丰富了实体Transformer机制。[胡等。2020]提出一种兼容的解耦策略,以明确地将动作与各种实体相关联,并利用注意力机制进行政策解释。为了实现具有挑战性的一次性视觉模仿,Dasari和Gupta[2021]使用Transformers来学习专注于特定任务元素的表征。与分散在观察中的实体类似,一些研究利用Transformers来处理其他局部的每时间步长序列。Tang和Ha[2021]利用Transformer的注意力机制来处理感知序列并构建排列不变输入策略。在不兼容的多任务强化学习中,[Kurinetal.,2020]提出使用Transformer提取形态学领域知识。同时,使用Transformer处理时间序列也是合理的。时间编码器用作存储架构,其中o_t表示代理在时间t的观察,Emb_0:t表示从初始观察到当前观察的历史观察的嵌入。在早期的工作中,[Mishra等人。2018]未能将vanillaTransformer用于时间序列,并发现它在某些特定任务中的表现甚至比随机策略更差。GatedTransformer-XL(GTrXL)[Parisottoetal.,2020]是第一个使用Transformer作为存储架构来处理轨迹的有效方案。GTrXL通过IdentityMapReordering修改Transformer-XL架构[Daietal.,2019]以提供从时间输入到Transformer输出的“跳过”路径,这可能有助于从一开始就形成稳定的训练过程。[洛因德等人。2020]提出了一种用于长期依赖关系的记忆向量快捷方式,[Irie等人。2021]将线性变压器与快速权重编程器相结合以获得更好的性能。[Melo2022]提出使用自注意力机制来模拟基于内存的元RL的内存恢复。虽然随着存储量的增长和参数大小的扩大,Transformer的性能优于LSTM/RNN,但它在RL上的数据效率不高。随后的工作利用一些辅助的自监督任务来促进学习[Baninoetal.,2021]或使用预训练的Transformer架构作为时间编码器[Lietal.,2022;范等,2022]。用于模型学习的Transformer除了将Transformer用作序列嵌入的编码器外,Transformer架构还在基于模型的算法中充当环境模型的骨干。与以单步观察和动作为条件的预测不同,Transformers使环境模型能够预测以一定长度的历史信息为条件的转换。事实上,Dreamer及其后继算法的成功[Hafneretal.,2020,2021;Seoetal.,2022]已经证明了基于历史信息的世界模型的优势。以历史信息为条件的世界模型由捕获抽象信息的观察编码器和学习潜在空间中的变换的变换模型组成。已有研究使用Transformer架构代替RNN来构建基于历史的世界模型。[陈等。2022]用基于Transformer的模型TSSM(TransformerState-SpaceModel)替换Dreamer中基于RNN的递归状态空间模型(RSSM)。IRIS(ImaginationwithautoRegressionoveranInnerSpeech)[Michelietal.,2022]通过对rollout体验的自回归学习学习基于Transformer的世界模型,而没有像Dreamer这样的KL平衡,在Atari[Bellemareetal..,2013]取得了良好的效果。此外,还有研究尝试使用基于Transformer的世界模型进行规划。[奥扎尔等人。2021]验证了使用Transformer转换模型进行随机任务规划的有效性。[孙等人。2022]提出了一种基于对象的Transformer转换模型,该模型在基于视觉的程序任务规划中非常有效。RNN和Transformer都适用于学习基于历史信息的世界模型。然而,[Micheli等人。2022]发现与Dreamer相比,Transformer架构是一种数据效率更高的世界模型。TSSM上的实验结果表明,Transformer架构在需要长期记忆的任务中表现出色。用于顺序决策的Transformer除了作为高性能架构集成到传统的RL算法中,Transformer还可以直接用作顺序决策模型。这是因为RL可以被视为一个条件序列建模问题:生成产生高回报的动作序列。鉴于Transformer在序列预测方面的卓越准确性,BootstrappedTransformer(BooT)[Wangetal.,2022]建议通过自举Transformer生成数据,同时优化数据以进行顺序决策。BootstrappingTransformer用于数据增强可以扩大离线数据集的数量和覆盖范围,从而提高性能。具体来说,BooT比较了不同的数据生成方案和引导方案,以分析BooT如何促进策略学习。结果表明,它可以在没有额外约束的情况下生成与底层MDP一致的数据。TransformerDecisionTransformerforgeneralagents在离线数据的各种任务中发挥了巨大的作用。一些研究人员已经开始考虑Transformer是否可以让通用代理解决多个不同的任务或问题,如CV和NLP领域。泛化到多任务一些研究者从CV和NLP中借鉴了预训练大规模数据集的思想,试图从大规模多任务数据集中抽象出通用策略。Multi-GameDecisionTransformer(MGDT)[Leeetal.,2022]是DT的一个变体,该模型在由专家和非专家数据组成的多样化数据集上学习DT,并使用一组参数在多个Achievenear-人类在Atari游戏上的表现。为了在非专家级数据集上获得专家级性能,MGDT设计了专家级动作推理机制,从return-to-go先验分布中计算出专家级return-to-go后验分布,并根据贝叶斯公式预设专家级返回概率。同样,SwitchTrajectoryTransformer(SwitchTT)[Linetal.,2022]是TT的多任务扩展,它利用稀疏激活模型并用混合专家层替换FFN层,以实现高效的多任务离线学习。此外,SwitchTT还采用分布式轨迹值估计器对值估计的不确定性进行建模。依靠这两个增强,SwitchTT在性能和训练速度上都比TT好很多。MGDT和SwitchTT利用从多个任务和各种性能级别策略中收集的经验来学习通用策略。然而,构建大规模多任务数据集并非易事。与CV和NLP中的大规模数据集通常使用来自互联网的海量数据和简单的人工标记不同,RL中的顺序决策数据总是缺乏动作信息且不易标记。因此,[Baker等人。2022]提出了一种半监督方案,使用没有动作信息的大规模在线数据来学习基于Transformer的逆向动力学模型(IDM)。该模型利用过去和未来的观察来预测动作信息,并能够标记大量在线视频数据。IDM是在包含手动标记动作的小型数据集上学习的,并且足够准确。NLP中的许多现有工作都证明了提示在适应新任务方面的有效性,一些工作利用基于DT方法的提示技术来实现快速适应。基于提示的决策转换器(Prompt-DT)[Xuetal.,2022]从few-shot演示数据集中采样一系列转换作为提示,并将few-shot策略推广到离线元RL任务。[里德等人。2022]通过对涵盖自然语言、图像、时间决策和多模式数据的超大规模数据集进行自回归序列建模,进一步利用基于提示的架构来学习通用代理(Gato)。Gato能够执行来自不同领域的一系列任务,包括文本生成和决策制定。[拉斯金等人。2022]提出了算法蒸馏(AD),以在单任务RL算法的学习过程的一系列跨片段上训练Transformer。因此,即使在新任务上,Transformer也可以学习在自回归生成过程中逐渐改进其策略。泛化到更广泛的领域除了泛化到多个任务之外,Transformer还是一个强大的“通用”模型,可用于与顺序决策相关的一系列领域。受掩码语言建模[Devlinetal.,2018]NLP技术的启发,[Carrolletal.2022]提出了Uni[MASK],它将各种常见的研究领域统一为mask推理问题,包括行为克隆、离线RL、GCRL、过去/未来推理和动态预测。Uni[MASK]比较不同的掩码方案,包括任务特定的掩码、随机掩码和微调变体。结果表明,使用随机掩码训练的单个Transformer可以解决任意推理任务。此外,[Reid等人。2022]发现使用在语言数据集或包含语言模态的多模态数据集上预训练的Transformers微调DTs是有益的。这表明即使来自非RL领域的知识也可以通过Transformer为RL进行训练。感兴趣的读者可以阅读论文原文了解更多研究细节。
