翻译|朱宪忠校对|孙书娟在协同多智能体强化学习(multi-agentreinforcementlearning:MARL)中,由于其基于策略的性质,通常被认为是策略梯度(PG)方法的样本,效率低于离策略值分解(VD))方法。然而,最近的一些实证研究表明,与非策略值分解方法相比,通过适当的输入表示和超参数调整,多代理策略梯度(PG)方法可以实现令人惊讶的性能。为什么PG方法可以这么有效?在本文中,我们进行了具体分析,以表明在某些场景中,例如具有高度多模式奖励景观的场景,虚拟现实可能会出现问题并导致不良结果。相反,在这些情况下,使用单一策略的PG方法可以收敛到最优策略。此外,具有自回归(AR)策略的PG方法支持多模态策略学习。图1:4人排列游戏的不同策略表示合作MARL中的集中训练和分散执行:VD和PG方法集中训练和分散执行(CTDE)是合作MARL中的一个流行框架。它利用全局信息进行更有效的培训,同时保留用于测试的单个策略的表示。CTDE可以通过值分解(VD)或策略梯度(PG)方法来实现,从而产生两种不同类型的算法。其中,VD方法能够学习局部Q网络并将局部Q网络作为混合函数混合到全局Q函数中。通常,强制执行混合函数以满足Individual-Global-Max(IGM)原则;该原则确保可以通过贪婪地为每个代理在本地选择最佳动作来计算最佳联合动作。相比之下,PG方法直接应用策略梯度来学习单个策略和每个代理的集中值函数。其中,价值函数以全局状态(如MAPPO)或所有局部观测值的拼接(如MADDPG)作为输入,以获得准确的全局价值估计。置换博弈:VD失败的一个简单反例我们首先考虑无状态合作博弈(即置换博弈)的情况。在一个有N个个体的排列游戏中,每个代理可以输出N个动作1,...,N。如果代理人的行动彼此不同,即联合行动是1,...,N的排列,则他们将获得+1奖励;否则,他们将获得0奖励。请注意,在这个游戏中有N!对称最优策略。图2:4人排列游戏现在,让我们关注两个玩家之间的排列游戏。在此设置中,如果我们将之前的值分解(VD)方法应用于游戏。这样全局Q值就会被分解为:其中Q1和Q2为局部Q函数,Qtot为全局Q函数,fmix为混合函数,根据要求满足IGM原理VD法。图3:为什么VD在2人排列游戏中失败的高级可视化到目前为止,我们已经正式证明价值分解VD方法不能自相矛盾地描述双人排列游戏的结果。因为,如果价值分解方法能够描述游戏结果,我们将有:但是,如果两个代理中的任何一个具有不同的局部Q值,例如Q1(1)>Q1(2),则根据单一全局最大值(IGM)原则,我们必须有:否则,如果Q1(1)=Q1(2)和Q2(1)=Q2(2),则我们有:因此,价值分解方案不能表达结果两人置换博弈矩阵。那么,PG方式呢?单个策略确实可以代表排列博弈的最优策略。此外,随机梯度下降保证PG在温和的假设下收敛到这些最优值之一。这表明,尽管策略梯度方法在MARL中不如价值分解方法受欢迎,但它们可能更适合在现实应用中常见的某些情况下使用,例如具有多种策略模式的游戏。我们还表明,在排列游戏中,为了表示最佳联合策略,每个代理必须选择不同的动作。因此,PG的成功实施必须确保该策略是特定于代理的。这可以通过使用具有非共享参数的单一策略(在本文中称为PG-Ind)或代理ID条件策略(PG-ID)来实现。PG在流行的MARL测试平台上优于最好的VD方法除了排列游戏的简单示例外,我们将研究扩展到当前流行且更现实的MARL基准环境。除了验证了PG和代理条件策略输入有效性的星际争霸多智能体挑战赛(SMAC)之外,我们还展示了GoogleResearchFootball(GRF)和多人Hanabi挑战赛领域的新成果。图4:(左)PG方法在GRF上的胜率;(右)Hanabi-Full在GRF中的最佳和平均评估分数,PG方法在5个场景中优于最先进的VD基础数据(CDS)。有趣的是,我们还注意到,在所有5种情况下,没有参数共享的单一策略(PG-Ind)取得了与特定代理策略(PG-ID)相当,有时甚至更好的结果。胜率高。我们在具有不同数量玩家(2-5名玩家)的全面Hanabi游戏中评估PG-ID,并将其与SAD进行比较——SAD是Hanabi游戏(VDN)中强大的离策略Q学习变体和价值分解网络,进行了比较.如上表所示,当使用相同数量的环境步骤和不同数量的玩家时,PG-ID能够产生与SAD和VDN获得的最佳和平均奖励相当或更好的结果。超越高回报:通过自回归策略建模学习多模态行为除了学习更高的回报外,我们还研究了如何在合作MARL中学习多模态策略。让我们再次切换回编曲游戏主题。其中,虽然我们已经证明PG可以有效地学习最优策略,但它最终达到的策略模式在很大程度上取决于策略初始化。因此,一个自然的问题出现了:我们能否学习到一个可以覆盖所有最优模式的策略?在分散的PG公式中,联合策略的因子表示只能表示一种特定模式。因此,我们提出了一种增强的方法来参数化策略以获得更强的表现力——自回归(AR)策略。图5:4人排列博弈中个体策略(PG)与自回归策略(AR)的比较形式上,我们可以将n个智能体的联合策略分解为以下形式:其中,一个动作取决于它自己的观察oi和来自先前代理1,...,i?1的所有动作。自回归分解可以表示集中式MDP中的任何联合策略。对每个代理策略的唯一修改是输入维度,通过包括以前的操作略微放大;每个代理策略的输出维度保持不变。凭借如此最小的参数化开销,AR策略极大地提高了PG方法的表达能力。我们注意到具有AR策略的PG-AR可以同时表示排列游戏中的所有最优策略模式。图6:PGInd(左)和PG-AR(中)学习的政策行动热图和结果热图(右)。PG-Ind仅收敛到4人排列游戏中的特定模式,而PG-AR成功地发现了所有最佳模式。在包括SMAC和GRF在内的更复杂的环境中,PG-AR可以学习到有趣的涌现行为,这些行为需要强大的智能内部协调,而PG-Ind可能永远无法学习到此类行为。图7:(左)PG-AR在SMAC和GRF中诱导的紧急行为。在SMAC的2m_vs_1z地图上,陆战队保持站立并交替攻击,同时确保每个时间步只有一名攻击陆战队员;(右)在GRF的academy_3_vs_1_with_keeper场景中,智能体学习了“TikiTaka”式行为:每个球员都不断将球传给他的队友。讨论与收获本文具体分析了cooperativeMARL中的VD和PG方法。首先,我们揭示了流行的VD方法表达能力的局限性,表明即使在简单的排列游戏中,它们也不能代表最优策略。相比之下,我们证明PG方法更具表现力。我们通过实验验证了PG在流行的MARL测试环境中的表达优势,包括SMAC、GRF和HanabiChallenge等游戏环境。最后,我们真诚地希望从这项工作中获得的见解将有助于社区在未来实施更通用和更强大的协作MARL算法。译者介绍朱宪忠,社区编辑,专家博主,讲师,潍坊某高校计算机教师,自由编程资深人士。早期专注于各种微软技术(编译成三本与ASP.NETAJX和Cocos2d-X相关的技术书籍)。/ESP32/RaspberryPi等物联网开发技术和Scala+Hadoop+Spark+Flink等大数据开发技术。原标题:为什么PolicyGradientMethods在CooperativeMARL中效果这么好?来自政策表征的证据,作者:傅伟、余超、杨佳琪、吴毅
