当前位置: 首页 > 科技观察

用魔法打败魔法!一个挑战人类顶尖棋手不敌同行的围棋AI

时间:2023-03-19 18:03:32 科技观察

近年来,自我对弈中的强化学习在围棋、国际象棋等一系列游戏中取得了超人的表现。此外,自我博弈的理想化版本也收敛于纳什均衡。纳什均衡在博弈论中非常有名。该理论由博弈论创始人、诺贝尔奖获得者约翰·纳什提出。策略,该策略称为占优策略。如果在所有其他参与者的策略都确定的情况下,任何参与者选择了最优策略,则这种组合被定义为纳什均衡。先前已经表明,在自我博弈中似乎有效的连续控制策略也可以被对抗性策略利用,这表明自我博弈可能不像以前认为的那样强大。这就引出了一个问题:对抗性策略是克服自我博弈的一种方式,还是自我博弈策略本身就不够充分?为了回答这个问题,来自麻省理工学院、加州大学伯克利分校等机构的研究人员进行了一些研究。他们选择了自己对弈比较好的领域,也就是围棋(Go)。具体来说,他们攻击KataGo,这是最强大的公开可用的围棋人工智能系统。对于固定网络(冻结的KataGo),他们训练了端到端的对抗策略。在训练KataGo时仅使用0.3%的计算量,他们获得了对抗性策略并用它来攻击KataGo。案例中,他们的策略对KataGo取得了99%的胜率,堪比欧洲围棋前100名选手的实力。当KataGo使用足够多的搜索来接近超人水平时,他们的胜率达到了50%。至关重要的是,攻击者(在本文中我们指的是在本研究中学习的策略)无法通过学习一般的围棋策略来获胜。这里需要说一下KataGo,正如这篇文章所说,KataGo是他们写这篇文章时最强大的公共围棋AI系统。有了搜索的加持,KataGo可以说是非常强大了,打败了本身就是超人的ELFOpenGo和LeelaZero。现在应该研究的攻手打败了KataGo,可以说是非常厉害了。图1:对抗策略击败KataGo受害者。论文地址:https://arxiv.org/pdf/2211.00241.pdf研究主页:https://goattack.alignmentfund.org/adversarial-policy-katago?row=0#no_search-board有趣的是,该研究提出的Adversarialstrategies不能击败人类玩家,甚至业余玩家也可以大大超越所提出的模型。攻击方式KataGo、AlphaZero等以往的方式通常是训练agent自己去对弈,而对弈的对手就是agent自己。在麻省理工学院、加州大学伯克利分校等机构的这项研究中,攻击者(adversary)和固定的受害者(victim)代理之间进行了一场博弈,攻击者就是通过这种方式进行训练的。这项研究希望训练攻击者利用与受害者代理的游戏互动,而不仅仅是模仿游戏对手。这个过程被称为“受害者游戏”。在常规的自我博弈中,智能体通过从自己的策略网络中采样来模拟对手的行为,这种方法对自我博弈确实有效。但是在受害者游戏中,从攻击者的策略网络中为受害者建模的方法是错误的。为了解决这一问题,本研究提出了两种类型的对抗性MCTS(A-MCTS),包括:A-MCTS-S:在A-MCTS-S中,研究人员将攻击者的搜索过程设置为:当受害者移动一块,样本取自受害者策略网络;当轮到攻击者移动棋子时,从攻击者策略网络中提取样本。A-MCTS-R:由于A-MCTS-S低估了受害者的能力,本研究提出A-MCTS-R在A-MCTS-R树中的每个受害者节点上为受害者运行MCTS。然而,这种变化增加了攻击者训练和推理的计算复杂性。在训练期间,该研究针对与冰冻的KataGo受害者进行的游戏训练了一种对抗性策略。在不进行搜索的情况下,攻击者对KataGo受害者的胜率可以达到>99%,这与欧洲围棋前100名选手的实力相当。此外,受过训练的攻击者在与受害代理的64轮比赛中取得了超过80%的胜率,研究人员估计这与最好的人类围棋选手相当。值得注意的是,这些游戏表明本研究中提出的对抗策略根本不是玩游戏,而是通过诱使KataGo在对攻击者有利的位置下棋来提前结束游戏。事实上,尽管攻击者能够利用与最好的人类围棋选手相媲美的游戏策略,但它很容易被人类业余爱好者击败。为了测试攻击者与人类对战的水平,该研究让论文的第一作者TonyTongWang与攻击者模型进行实际对战。王在研究项目之前从未学过围棋,但他以巨大的优势击败了攻击者模型。这表明,虽然该研究提出的对抗策略可以击败能够击败顶级人类玩家的AI模型,但它无法击败人类玩家。这可能表明某些AIGo模型存在错误。评估结果AttackVictimPolicyNetwork首先,研究人员在KataGo(Wu,2019)上评估了自己的攻击方法的性能,发现A-MCTS-S算法达到了99%以上的胜率。如下图3所示,研究人员针对Initial和Latest策略网络评估了自我对抗策略的性能。他们发现,在大部分训练中,自我攻击者对两个受害者都取得了很高的胜率(超过90%)。但随着时间的推移,攻击者对Latest过拟合,Initial的胜率也下降到20%左右。研究人员还针对Latest评估了最佳对抗性策略检查点,胜率超过99%。而且,当对抗性策略仅训练3.4×10^7时间步长(受害者时间步长的0.3%)时,就能实现如此高的获胜率。转移到搜索到的受害者我们成功地将对抗性策略转移到低搜索机制,并评估了上一节中训练的对抗性策略针对最新搜索的能力。如下图4a所示,他们发现在32个受害者回合中,A-MCTS-S对受害者的胜率下降到80%。但在这里,受害者并没有在训练和推理过程中进行搜索。此外,研究人员对A-MCTS-R进行了测试,发现它表现更好,在32个受害者回合中对Latest的胜率超过99%,但在128个回合时胜率降至10%以下。在图4b中,研究人员表明,当攻击者进行到4096轮时,A-MCTS-S对Latest的胜率最高,达到54%。这与A-MCTS-R在200回合时的表现非常相似,达到了49%的胜率。其他评估如下图9所示。研究人员发现,虽然Latest是一个更强大的代理,但在Latest上训练的攻击者对Latest的表现要好于Initial。最后,研究人员探索了攻击机制,包括受害者的价值预测和硬编码防御评估。如下图5所示,所有基线攻击的性能都明显低于它们所训练的对抗性策略。有关更多技术细节,请参阅原始论文。