当前位置: 首页 > 科技观察

星际争霸II协作对抗基准超越SOTA,新型Transformer架构解决多智能体强化学习问题

时间:2023-03-20 18:12:48 科技观察

星际争霸II合作对抗benchmark超越SOTA,新的Transformer架构解决了多agent强化学习的问题,但也需要联合个体agent的策略更新来提升整体性能。最近,这个问题得到了初步解决,一些研究人员引入了CentralizedTrainingDecentralizedExecution(CTDE)的方法,该方法允许代理在训练阶段访问全局信息。然而,这些方法无法涵盖多代理交互的全部复杂性。事实上,其中一些方法已被证明是失败的。为了解决这个问题,有人提出了多智能体优势分解定理。在此基础上推导出HATRPO和HAPPO算法。然而,这些方法也有局限性,它们仍然依赖于精心设计的最大化目标。近年来,序列模型(SM)在自然语言处理(NLP)领域取得了长足的进步。与GPT系列一样,BERT在广泛的下游任务上表现出色,在小样本泛化任务上也取得了强劲的表现。时序模型可以用于语言任务,因为它们天生符合语言的时序性,但时序方法并不局限于NLP任务,而是一种广泛适用的通用底层模型。例如,在计算机视觉(CV)中,图像可以被分割成子图并进行排序,就好像它们是NLP任务中的标记一样。最近比较知名的车型Flamingo、DALL-E、GATO等都有序列法的影子。随着Transformer等网络架构的出现,序列建模技术也引起了强化学习界的极大关注,推动了一系列基于Transformer架构的离线RL开发。这些方法在解决一些最基本的RL训练问题方面显示出巨大的潜力。尽管这些方法取得了显着的成功,但没有一种方法被设计用来模拟多代理系统最困难的(也是MARL独有的)方面——代理之间的交互。事实上,简单地给所有智能体一个Transformer策略并单独训练它们仍然不能保证提高MARL联合性能。因此,虽然有大量强大的序列模型可供使用,但MARL并没有真正发挥序列模型的性能优势。如何用序列模型解决MARL问题?来自上海交通大学、数字大脑实验室、牛津大学等的研究人员提出了一种新的多智能体Transformer(MAT,Multi-AgentTransformer)架构,可以有效地将协同MARL问题转化为序列模型问题,其任务是将代理的观察序列映射到代理的最佳动作序列。本文的目标是在MARL和SM之间架起一座桥梁,以释放现代序列模型对MARL的建模能力。MAT的核心是encoder-decoder架构,利用多智能体优势分解定理将联合策略搜索问题转化为顺序决策过程,使多智能体问题呈现线性时间复杂度。最重要的是,这样做可以保证MAT单调性能提升。与以前需要预先收集离线数据的技术(例如DecisionTransformer)不同,MAT是通过在线环境中的在线试错以在线策略方式进行训练的。论文地址:https://arxiv.org/pdf/2205.14953.pdf项目主页:https://sites.google.com/view/multi-agent-transformer为了验证MAT,研究人员对StarCraftII、Multi-特工MuJoCo,对灵巧手操作和GoogleResearchFootball基准进行了广泛的实验。结果表明,与MAPPO和HAPPO等强基线相比,MAT具有更好的性能和数据效率。此外,该研究还表明,无论代理人的数量如何,MAT在看不见的任务上表现更好,但据说是一个优秀的少样本学习者。背景在本节中,研究人员首先介绍协作MARL问题公式和多代理优势分解定理,它们是本文的基石。然后,他们回顾了现有的与MAT相关的MARL方法,最终导致了Transformer。传统多智能体学习范式(左)与多智能体顺序决策范式(右)的比较。问题制定协作MARL问题通常由离散的部分可观察马尔可夫决策过程(Dec-POMDP)建模。Multi-AgentAdvantageDecompositionTheorem代理通过Q_π(o,a)和V_π(o)评估动作和观察值,定义如下。定理1(多智能体优势分解):令i_1:n为智能体的排列。以下公式在没有进一步假设的情况下始终成立。重要的是,定理1提供了关于如何选择增量改进操作的直觉。现有的MARL方法研究人员总结了两种当前的SOTAMARL算法,这两种算法都建立在近端策略优化(PPO)之上。PPO是一种以简单性和性能稳定性着称的RL方法。多代理近端策略优化(MAPPO)是在MARL中应用PPO的第一个也是最直接的方法。HeterogeneousAgentProximalPolicyOptimization(HAPPO)是当前SOTA算法之一,它可以充分利用定理(1)实现具有单调改进保证的多代理信任域学习。Transformer模型基于定理(1)中描述的顺序属性和HAPPO背后的原理,现在可以直观地考虑用于多智能体信任域学习的Transformer模型。通过将代理团队视为一个序列,Transformer架构允许对具有可变数量和类型的代理团队进行建模,同时避免MAPPO/HAPPO的缺点。Multi-agentTransformer为了实现MARL的顺序建模范式,研究人员提供的解决方案是Multi-agentTransformer(MAT)。应用Transformer架构的想法源于agent观察序列(o^i_1,...,o^i_n)输入和动作序列(a^i_1,...,a^i_n)输出映射是类似于机器翻译的序列建模任务。由于定理(1)回避,动作a^i_m取决于所有先前代理的决定a^i_1:m?1。因此,如下图(2)所示,MAT中包含了一个用于学习联合观察表示的编码器和一个用于以自回归方式为每个智能体输出动作的解码器。编码器,其参数由φ表示,以任意顺序获取观察序列(o^i_1,...,o^i_n)并将它们传递给多个计算块。每个块都包含一个自我注意机制、一个多层感知器(MLP)和剩余连接,以防止梯度消失和网络随着深度的增加而退化。解码器的参数用θ表示,它传递嵌入式联合动作a^i_0:m?1,m={1,...n}(其中a^i_0是指示解码开始的任意符号)到解码块序列。至关重要的是,每个解码块都有一个屏蔽的自我注意机制。为了训练解码器,我们将裁剪后的PPO目标最小化如下。MAT中的详细数据流如下面的动画所示。实验结果为了评估MAT是否达到预期,研究人员测试了星际争霸II多智能体挑战(SMAC)基准测试(在具有卓越性能的MAPPO之上)和多智能体MuJoCo基准测试(在具有SOTA性能的HAPPO之上))测试垫。此外,研究人员还在双手灵巧手部操作(Bi-DexHands)和GoogleResearchFootball基准测试中对MAT进行了扩展测试。前者提供了一系列具有挑战性的双手任务,后者提供了一系列足球比赛中的合作场景。最后,由于Transformer模型通常在少样本任务上表现出很强的泛化性能,我们相信MAT在未见过的MARL任务上也可以具有类似的强泛化能力。因此,他们在SMAC和多代理MuJoCo任务上设计了零样本和少样本实验。协同MARL基准测试的性能如下表1和图4所示。对于SMAC、多代理MuJoCo和Bi-DexHands基准测试,MAT在几乎所有任务上都显着优于MAPPO和HAPPO,表明它在异构代理任务上既具有同构又具有强大的构建能力。此外,MAT还取得了比MAT-Dec更好的性能,可见解码器架构在MAT设计中的重要性。同样,研究人员在GoogleResearchFootball基准测试中获得了类似的性能结果,如下图5所示。用于少样本学习的MAT表2和表3总结了每种算法的零样本和少样本结果,其中粗体数字表示最佳性能。研究人员还展示了MAT在同一数据集上的表现,该数据集与对照组一样从头开始训练。如下表所示,MAT取得了大部分最好的结果,证明了Few-shotlearning对MAT的强大泛化性能。