Transformer模型自发布以来,迅速成为自然语言处理和计算机视觉领域在监督学习设置下的主流神经架构。虽然Transformer的热潮已经开始席卷强化学习领域,但由于RL本身的特点,比如需要独特的特征、架构设计等,目前Transformer与强化学习的结合并不顺利,并且其发展路线也缺乏相关论文进行深入总结。近日,来自清华大学、北京大学和腾讯的研究人员联合发表了一篇关于Transformer与强化学习相结合的研究论文,系统地回顾了在强化学习中使用Transformer的动机和发展过程。论文链接:https://arxiv.org/pdf/2301.03044.pdf文章对已有的相关工作成果进行了分类,深入讨论了各个子领域,最后总结了该研究方向的未来展望。带有RL强化学习(RL)的Transformer为顺序决策提供数学形式,让模型自动获取智能行为。RL为基于学习的控制提供了一个通用框架。随着深度神经网络的引入,深度强化学习(DRL)的泛化能力近年来也有了长足的进步,但样本效率问题阻碍了DRL在现实世界中的应用。应用广泛。为了解决这个问题,一种有效的机制是在DRL框架中引入归纳偏差,其中函数逼近器架构的选择更为重要,例如DRL代理的神经网络的参数化。然而,与监督学习(SL)相比,在DRL中选择架构设计的问题仍未得到充分探索,大多数关于RL架构的现有工作都是由(半)监督学习社区的成功推动的。受到启发。例如,在DRL中处理基于图像的高维输入的常见做法是引入卷积神经网络(CNN);处理部分可观察性的另一种常见做法是引入循环神经网络(RNN)。近年来,Transformer架构在广泛的SL任务中彻底改变了学习范式,并显示出优于CNN和RNN的性能。例如,Transformer架构可以建模更长的依赖关系,并且具有出色的可扩展性。.受SL成功的启发,业界对将Transformers应用于强化学习的兴趣激增,早在2018年的一篇论文中,自注意力机制被用于结构化状态表示的关系推理。之后,很多研究者开始尝试将self-attention应用到representationlearning中,提取实体之间的关系,从而更好的进行policylearning。除了状态表示学习之外,之前的工作还使用Transformer来捕获多步时间依赖性来处理部分可观察性问题。最近,离线强化学习因其能够利用离线大规模数据集而受到关注。相关研究成果也表明,Transformer架构可以直接作为时序决策的模型,可以扩展到多个任务和领域。本研究论文的目的是介绍强化学习中的变形金刚领域(TransformRL)。尽管Transformer已被认为是当前大多数SL研究的基本模型,但在RL社区中对它的探索仍然较少。事实上,与SL领域相比,在RL中使用Transformer作为函数逼近器需要解决一些不同的问题:1.RLagent的训练数据通常是当前policy的函数,在这个过程中会产生不同的问题变压器学习。平稳性(非平稳性)。2.现有的RL算法通常对训练过程中的设计选择高度敏感,包括网络架构和容量。3.基于Transformer的架构通常具有高计算和内存成本,这意味着它们的训练和推断速度缓慢且成本高昂。例如,在游戏中的一些AI案例中,样本生成的效率在很大程度上影响了训练性能,这取决于RL策略网络和价值网络的计算成本。TransformRL的未来论文简要回顾了TransformersforRL的进展。它的优点主要包括:1.Transformer可以作为强化学习中一个强大的模块,比如表示模块或者世界模型;2.Transformer可以作为序列决策器;3.Transformer可以提高跨任务、跨领域的泛化性能。鉴于Transformers在更广泛的AI社区中的强大表现,研究人员认为将Transformers与RL相结合是一个很有前途的研究方向。以下是关于这个方向的一些未来前景和未解决的问题。结合强化学习和(自)监督学习来追溯TransformRL的发展历程,可以发现其训练方式涵盖了强化学习和(自)监督学习。当用作在传统RL框架下训练的表示模块时,Transformer架构的优化通常是不稳定的。当使用Transformer通过序列建模解决决策问题时,(自我)监督学习范式可以消除致命的三元组问题。在(自我)监督学习的框架下,策略的性能深受离线数据质量的制约,开发和探索之间的明确权衡不再存在,因此结合RL和(自我)监督学习时,可以学习更好的政策。一些作品尝试了涉及RL的监督预训练和微调方案,但在相对固定的策略下,探索会受到限制,这是需要解决的瓶颈之一。另外,沿着这条路线,用于性能评估的任务相对简单,而Transformer能否将这种(自)监督学习扩展到更大的数据集、更复杂的环境和实际应用中也值得进一步探索。此外,研究人员希望未来的工作能够提供更多的理论和实证见解,以了解这种(自我)监督学习有望在哪些条件下表现良好。通过Transformer连接在线和离线学习,从而步入离线RL是TransformRL的一个里程碑,但实际上,使用Transformer来捕捉决策序列中的依赖关系并抽象出策略,主要是涉及到对大量离线数据的支持分析用过的。没开。但是,对于一些决策任务,在实际应用中摆脱在线框架是行不通的。一方面,在某些任务中获取专家数据并不那么容易;另一方面,有些环境是开放式的(例如Minecraft),这意味着必须不断调整策略以处理在线交互中看不到的任务。因此,研究人员认为有必要将在线学习和离线学习联系起来。DecisionTransformer之后的大部分研究进展都集中在离线学习框架上,一些作品尝试采用离线预训练和在线微调的范式。然而,在线微调中的分布偏移在离线强化学习算法中仍然存在,研究人员希望通过对决策转换器进行一些特殊设计来解决这个问题。此外,如何从头开始训练在线DecisionTransformer是一个有趣的开放性问题。为决策问题量身定做的Transformer结构目前DecisionTransformer系列方法中的Transformer结构主要是vanillaTransformer,它最初是为文本序列设计的,可能有一些不适合决策问题的性质。例如,对轨迹序列使用普通的自注意力是否合适?位置嵌入是否需要区分决策序列中的不同元素或同一元素的不同部分?此外,由于在不同的DecisionTransformer算法中将轨迹表示为序列的变体有很多,如何选择它们还缺乏系统的研究。例如,在工业中部署此类算法时如何选择可靠的后见之明信息?并且vanillaTransformer也是一个计算量大的结构,这使得它在训练和推理阶段的开销很大,内存占用也很高,这也限制了它捕获依赖的长度。为了缓解这些问题,NLP中的一些工作对Transformer的结构进行了改进,但类似的结构是否可以用于决策问题也值得探讨。使用Transformers实现更通用的代理这篇论文中对通用代理的Transformers的回顾表明了Transformers作为通用策略的潜力。事实上,Transformer的设计允许以类似块的方式处理多种模态(例如图像、视频、文本和语音),并展示了对超大容量网络和庞大数据集的出色可扩展性。最近的工作在训练能够执行多模式和跨域任务的代理方面也取得了重大进展。然而,鉴于这些智能体是在大规模数据集上训练的,尚不清楚它们是否只是记住数据集以及它们是否有效地进行了泛化。因此,如何在没有强假设的情况下学习可以泛化到看不见的任务的代理仍然是一个值得研究的问题。此外,研究人员还很好奇Transformer是否足够强大,可以用来学习一个通用的世界模型,用于不同的任务和场景。RLforTransformers尽管文章讨论了RL如何从Transformer模型中获益,但相反,使用RL改进Transformer训练仍然是一个有趣的开放性问题,尚未得到很好的探索。可以看出,最近的人类反馈强化学习(RLHF)可以学习一个奖励模型,并使用RL算法微调Transformer,使语言模型与人类意图一致。在未来,研究人员认为RL可能是一种有用的工具,可以进一步改进其他领域的Transformer性能。
