场景描述:大家还记得去年8月微软发布的“麻雀AI”Suphx吗?今天,研究团队在arXiv上发布了更新版的论文,进一步介绍了Suphx背后的技术。2019年8月29日,微软发布了名为Suphx(超级凤凰)的“麻将AI”。在专业的麻将竞技平台上,Suphx的实力超越了人类顶尖选手的平均水平。当时一经发布,Suphx就引起了广泛关注,不仅是人工智能领域,许多麻将爱好者也纷纷前来围观讨论。 麻将的信息集数量和平均信息集大小超过桥牌、扑克和围棋。 今天,系统研发团队在arXiv上发表了一篇论文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》(《Suphx:掌握麻将与深度强化学习》),进一步阐述了Suphx背后的技术。 《Suphx:掌握麻将与深度强化学习》 论文地址:https://arxiv.org/pdf/2003.13590.pdfSuphx越来越强:已经超越了99.99%的玩家学习和积累经验后,在日本职业麻将竞技平台“天风”上击败了众多麻将玩家”,并在“特尚坊”平台上获得了十段的最高段位。Suphx在天风平台的排名远高于其他麻将AI 。如此强大的麻将AI是如何打造出来的?来自微软亚洲研究院、京都大学、中国科学技术大学、清华大学和南开大学的研究团队在最新版论文中进行了深入介绍。 从论文中我们也知道,随着进一步的研究,Suphx的水平已经提高了。在拥有超过35万玩家的《天风》平台上,被官方评为超过99.99%的玩家。这是第一次有计算机程序在麻将比赛中超过了大多数顶级人类选手。五大模型与强化学习,打造雀神AI Suphx包含一系列卷积神经网络,学习五种模型来应对不同的场景,包括discard(丢弃模型)、Riichi模型、chow模型、Pong模型和Kong模型。 丢弃模型(上图)和其他四个模型的架构(下图) 在此基础上,Suphx使用另一种基于规则的模型来决定是否宣布获胜者并进行下一轮检查是否赢牌可以根据其他玩家丢弃的牌来判断,也可以根据从排墙上抽出的牌来判断。 据介绍,Suphx的训练过程分为三个步骤。 首先,它的5个模型都是使用从“天风”平台收集的顶级人类玩家的日志进行训练的。 然后,使用基于CPU的麻将模拟器和基于GPU的轨迹生成推理引擎,通过自我对弈强化学习对系统进行微调。 最后,在线对战时,通过运行时策略调整来观察本轮比赛的结果,使系统表现更好。Suphx中的分布式强化学习系统 由于在麻将游戏中对手的信息是未知的,所以Suphx尝试了先知式的教练技术来提高强化学习的效果。在自我博弈的训练阶段,利用隐藏信息来指导模型训练的方向,从而增强AI模型对可见信息的理解,找到有效的决策依据。评价:5760场比赛,十场记录 实验前,团队在44个GPU上使用了150万张卡(其中参数服务器4个NvidiaTitanXP,自玩玩家40个K80),每个模型训练两天.该团队在20个NvidiaTeslaK80GPU上评估了Suphx。为了降低稳定排名的方差,他们从超过100万场麻将游戏的数据集中随机抽取80万手数据,并从中进行1000次抽样。 测评结果是,在“天风”平台与人类玩家进行了5760多场比赛后,Suphx创造了十阶段的记录——只有大约180名玩家达到过这个水平。Suphx的稳定排名是8.74(人类玩家的最高等级是7.4)。强化学习代理终于稳定了排名统计 在不断的优化中,RL-2终于取得了更好的表现 有趣的是,研究人员写道,Suphx的防御“非常强”,放手的概率非常低,只有10.06%,并且它已经形成了自己的打法,可以保证牌的安全并以半平局取胜。 AI玩家(南方人)会打得比较保守 丢弃篮子里的六针,因为它已经在桌子上了 此外,大多数现实世界的问题,例如金融市场预测和物流优化都有和麻将一样的特点。例如复杂的操作/奖励规则、不完全信息问题等。 作者认为,Suphx中设计的麻将技术,包括全局奖励预测、预言性引导、政策调整等,具有巨大的潜力,可以广泛应用于帮助解决未来现实世界中真实复杂的实际问题。 看到这里,你是不是迫不及待想试试了?天风麻将对战平台:https://tenhou.net/一起来对战吧!
