当前位置: 首页 > 科技观察

对人类的胜率是84%,DeepMindAI首次在军棋中达到了人类专家的水平

时间:2023-03-21 10:14:13 科技观察

DeepMind在游戏AI领域再创佳绩,这次是军棋。在AI游戏领域,人工智能的进步往往通过桌游来体现。棋盘游戏可以衡量和评估人类和机器如何在受控环境中制定和执行策略。几十年来,提前计划的能力一直是人工智能在国际象棋、西洋跳棋、将棋和围棋等完美信息游戏以及扑克和苏格兰场等不完美信息游戏中取得成功的关键。Stratego已成为人工智能研究的下一个前沿领域之一。下面的图1a显示了这个游戏的阶段和机制的可视化。游戏面临以下两个挑战。首先,Stratego的博弈树有10,535种可能状态,这比经过充分研究的不完全信息游戏无限注德州扑克(10,164种可能状态)和围棋(10360可能状态)还要多。其次,在Stratego的给定环境中行动需要在游戏开始时为每个玩家推理超过1066种可能的部署,而扑克只有103种可能的牌对。围棋和国际象棋等完美信息游戏没有私有部署阶段,从而避免了Stratego中这一挑战带来的复杂性。目前,不可能使用基于模型的SOTA完美信息规划技术,也不可能将游戏分解为独立情况的不完美信息搜索技术。由于这些原因,Stratego为研究大规模策略交互提供了具有挑战性的基准。与大多数棋盘游戏类似,Stratego测试我们按顺序做出相对缓慢、深思熟虑和合乎逻辑的决定的能力。并且由于游戏结构非常复杂,AI研究界进展甚微,人工智能代理只能达到人类业余玩家的水平。因此,开发代理来学习端到端策略以利用Stratego的不完美信息做出最佳决策,从头开始并且没有人类演示数据,仍然是AI研究中的重大挑战之一。最近,在DeepMind的一篇新论文中,研究人员提出了DeepNash,一种无需人类演示即可以无模型方式学习Stratego自我对弈的智能体。DeepNask击败了之前的SOTAAI代理,并在StrategoClassic中达到了专家级人类玩家的水平,这是该游戏最复杂的变体。论文地址:https://arxiv.org/pdf/2206.15378.pdf。DeepNash的核心是一种结构化、无模型的强化学习算法,研究人员称之为正则化纳什动力学(R-NaD)。DeepNash将R-NaD与收敛到纳什均衡的深度神经网络架构相结合,这意味着它学会在激励竞争下进行游戏,并且对试图利用它的竞争对手具有鲁棒性。下面的图1b提供了DeepNash方法的高级概述。研究人员系统地将其性能与Gravon游戏平台上的各种SOTAStratego机器人和人类玩家进行了比较。结果显示,DeepNash以超过97%的胜率击败了目前所有的SOTA机器人,与人类玩家展开了激烈的竞争。2022年及各个时期的排行榜均进入前3,胜率84%。研究人员表示,在学习算法中没有部署任何搜索方法的情况下,AI算法首次能够在复杂的棋盘游戏中达到人类专家的水平,这也是AI首次实现Stratego游戏中人类专家的水平。方法概述DeepNash使用端到端学习策略运行Stratego,并在游戏开始时有策略地将棋子放在棋盘上(见图1a)。在玩游戏阶段,研究人员使用集成的深度强化学习和博弈论方法。智能体旨在通过自我博弈学习近似的纳什均衡。该研究采用无搜索的正交路径,并提出了一种将自我博弈中的无模型强化学习与博弈论算法思想相结合的新方法——正则化纳什动力学(RNaD)。无模型部分是指该研究没有建立显式的对手模型来追踪对手的可能状态。博弈论部分的思想是在强化学习方法的基础上,引导agent的学习行为向纳什均衡方向发展。这种组合方法的主要优点是不需要从公共状态显式模拟私有状态。另一个复杂的挑战是将这种无模型强化学习方法与R-NaD相结合,使陆军象棋中的自我对弈能够与人类专家棋手竞争,这是迄今为止尚未实现的。这种组合的DeepNash方法如上图1b所示。正则化纳什动力学算法DeepNash中使用的R-NaD学习算法是基于正则化的思想来实现收敛的。R-NaD依赖三个关键步骤,如下图2b所示:DeepNash由三个组件组成:(1)R-NaD,核心训练组件;(2)微调学习策略以降低模型采取极不可能动作的剩余概率,以及(3)在测试时进行后处理以过滤掉低概率动作并纠正错误。DeepNash的网络由以下组件组成:一个具有残差块和跳跃连接的U-Net主干,以及四个头。第一个DeepNash头输出值函数作为标量,而其余三个头通过输出其在部署和播放期间的动作的概率分布来编码代理的策略。这个观察张量的结构如图3所示:实验结果DeepNash也用几个现有的Stratego计算机程序进行了评估:Probe连续三年(2007、2008、2010)获得计算机Stratego世界冠军;2009年夺旗大师获得冠军;DemonofIgnorance是Stratego的开源实现;Asmodeus、Celsius、Celsius1.1、PeternLewis和Vixen是2012年澳大利亚大学编程大赛提交的程序,PeternLewis获胜。如表1所示,DeepNash赢得了与所有这些智能体的绝大多数比赛,尽管DeepNash没有针对对手进行训练,而只是使用自我对弈。下面的图4a举例说明了DeepNash中一些经常重复的部署;图4b显示了DeepNash(蓝队)在棋子上落后(失去7和8)但在信息上领先的情况,因为红队的对手有10、9、8和两个7。图4c中的第二个示例显示了DeepNash有机会用对手的9捕获对手的6,但没有考虑这一举动,可能是因为DeepNash认为保护9的身份被认为比物质利益更重要。在下面的图5a中,研究人员展示了积极的虚张声势,即玩家假装棋子的价值高于实际价值。DeepNash用未知棋子Scout(2)追逐对手的8并假装它是10。对手认为这个棋子可能是10,将它引导到Spy(可以捕获10)旁边。然而,为了夺取这颗棋子,对方的Spy输给了DeepNash的Scout。第二种诈唬是消极诈唬,如下图5b所示。它与咄咄逼人的虚张声势相反,玩家假装这颗棋子的价值低于实际价值。下面的图5c演示了一个更复杂的诈唬,其中DeepNash将其未公开的Scout(2)关闭到对手的10,这可以解释为Spy。这个策略实际上允许蓝色在几步之后用7捕获红色的5,从而获得材料,防止5捕获侦察兵(2),并揭示它实际上不是间谍。