本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。今天和AI绝武打了6局王者荣耀,心态有点崩溃。从来没有赢过?这不,比分打成了3:3,获得了MVP。那它是怎么崩溃的呢?慢慢听我说。PVP对战手游王者荣耀在五一期间上线了全新玩法——挑战·绝武,5人组队,对战5个AI。早就听说《绝武》内测胜率高达99.8%,而拥有《王者级》操作水平的我,觉得是时候大显身手了在帝王峡谷中。进入挑战入口后,可以看到这是一个通关方式,一共有5个关卡,难度会随着关卡的增加而增加。OK,等不及了,展示真技术的时候到了。被“吓”到抽搐的传人首先说起了第一场比赛的阵容。我方:孙尚香(我)、上官婉儿、嬴政、孙策、裴擒虎。宿敌:后人、李白、关羽、小乔、牛魔。开局前我就在想,《绝武》会不会像人一样有谋略。果不其然,一上线,对面的李白就带着牛魔王来对付我的“蓝爸爸”(见左上角小地图)。这个时候我还沉浸在对绝无的敬佩中:他有点像人类玩家。然而,就在这时,更让我意想不到的事情发生了——我被后代“吸走了”。原来他一直蹲在草丛里看着我……血消耗了大半。正想还手时,中间的小乔过来支援……幸好我身轻如燕,才没有酿成送血的惨剧。或许是看到我优雅的脚步,对面的后裔……抽搐了一下!从那以后,我坚信发展才是王道,开始安心清线,队友也很好。开局不到3分钟,我就已经拿下了7杀。不过不得不说,在团战的时候,“绝武”的辅助速度还是很不错的。但是AI可能并没有夸大其词。一次团战,子孙们看到我的参赛,又抽搐了!最终,他在队友的默契配合下,用时13分钟成功拿下胜利。击中旗帜,玩得开心!趁热打铁,抓紧第二轮。双方阵容如下。我们这边:玉妃(我)、嬴政、鞠佑靖、夏侯惇和孙悟空。敌人:伽罗、孙悟空、达摩、蔡文姬和将军莫邪。这一局凭借着我猴对“绝武”操作的猴子的碾压和夏侯惇出色的上单表现,即使是面对伽罗、干将魔邪这样的长手怪,也顺利拿下了胜利。被我“带上天”的婉儿,在第三场比赛中,从阵容上看难度已经开始加大了。我方:小乔(我)、钟无艳、刘备、狄仁杰、伽罗。敌人:上官婉儿、虞姬、鬼谷子、孙策、尧。这一局开局,“绝武”采用的策略是最近比较流行的战术——辅助跟在中单后面,快速清掉第一波兵力。可见,鬼谷子在发现我钟无艳反野后,选择回去帮忙是明智的。在“绝武”的快速支援下,我们的方家洛顺利送出了第一个人头。这一幕和第一局一模一样……毕竟我不是这一局的射手,不能使用那个华丽的动作……然而,这时候提示亮了——获得第一份血样——1.什么?!在绝舞眼里,我们人类竟然是标本……这一局,没有之前那么顺利。将近6分钟时,双方的战绩可以说是55比13:11。其实我更害怕面对婉儿。毕竟在“贼6”婉儿面前,自己只能是活靶子。然而,经营《绝武》的婉儿,简直让我目瞪口呆。比如我家狄仁杰残血状态,婉儿突然冲出野区。看她走过的路,应该是“一口气带人走”的举动。就在我以为她的“133233天堂”要把我们俩都带走的时候,她的天堂……竟然被我的给炸了……然后灰溜溜的跑了!失去!向上!从此以后,被我吹爆,或许就成了婉儿上天堂的习惯了。强如我——“给我坐下”!而就在7分钟左右,系统突然弹出提示——绝无AI正在集体升级中……滴滴滴滴。不好,AI的能力可能要加强了,心中升起了一丝恐惧。这一刻,游戏结束了……是的,我们一波把水晶推开了。抱歉,您本次“升级”无法体验。好吧,我有点臃肿。连输3场,心都垮了。然而,前方的路一步步将我推向崩溃的边缘。还是老规矩,先介绍一下第四场的阵容。敌人:老夫子、貂蝉、张飞、李元芳、赵云。好奇我为什么不介绍我们的阵容吗?让我们来看看第一次崩溃!嬴政、王昭君、小乔、马可波罗和虞姬。这个法师和射手的“脆皮联盟”差点让我瞎了眼。毫无悬念,13点30分,14分钟,在这种“人机模式”下,已经分不清谁是人谁是机器了。并且还被“绝武”的实力调侃:好安静。另外,还有画外音:下次试试拔掉AI的电源……收拾好心情再出发,还是挑战一下这个关卡吧。我们这一轮的阵容还不错:孙悟空、明世隐、成吉思汗、嫦娥、安吉拉。然而万万没想到,坠机的第二弹来得这么快。游戏一开始,明世因就挂断了电话,说道:“挂了,你赢不了。”嫦娥也附和道:“你选的人,根本赢不了。”我不服输,说:“我不怕AI,就怕你这样的队友。”又是毫无悬念的“人机”。好吧,让我们重新梳理一下心情,挑战一下这一关的“极限启蒙”。这次,我们的阵容如下:李元芳、张良、关羽、韩xin和蔡文姬(我)。王者荣耀这局游戏,输的理由有千万种,这一次,我们白白输了。知道“绝武”的支援很快,“冲锋陷阵”的勇气battle》和《我不下地狱谁下地狱》简直感人至深,妃子再多奶也敌不过队友的一波又一波!于是乎,我又输了。这是我和AI打6局王者荣耀的故事《绝武》AI:30小时达到王者级别,70小时与职业选手平起平坐人类职业战队,实力不容小觑。在去年底,腾讯也在一篇入围AAAI2020的论文中公开了“绝武”的技术细节。首先要指出的是在腾讯的新论文中,重点是1v1游戏AI,而不是5v5游戏AI。研究人员在他们的论文中解释说,后者更侧重于所有代理人的团队合作策略,而不是单个代理人的行动决策。考虑到这一点,1v1游戏更适合研究游戏中复杂的动作决策问题,也可以更全面、系统地研究游戏AI代理的构建。AI的整体架构分为四个模块:强化学习学习器(RLLearner)、人工智能服务器(AIServer)、分发模块(DispatchModule)和内存池(MemoryPool)。这是一个高度可扩展和低耦合的系统架构,可用于构建数据并行化。主要考虑是复杂智能体的动作决策问题可能会引入高方差的随机梯度,因此需要使用更大的batchsize来加速训练。其中,AI服务器实现了AI模型与环境的交互模式。分配模块是一个用于样本采集、压缩和传输的工作站。内存池是为RL学习者提供训练实例的数据存储模块。这些模块相互独立,可以灵活配置,让研究人员可以专注于算法设计和环境逻辑。这样的系统设计也可以用于其他多智能体竞争问题。在强化学习学习器中,他们还实现了一个演员-评论家神经网络,用于对1v1游戏中的动作依赖性进行建模。为了应对游戏中的多场景决策,研究人员还提出了一系列算法策略来实现更高效的训练:为了帮助AI在战斗中选择目标,引入了目标注意力机制;为了学习英雄的技能释放组合,使AI在序列决策中能够快速输出大量伤害,使用了LSTM;用于构建多标签近端策略优化(PPO)目标,并使用动作依赖的解耦;为了指导强化学习过程中的探索,提出了一种基于博弈知识的剪枝方法;为了保证在使用大而有偏差的数据batch进行训练时的收敛性,改进后的PPO算法提出了dual-clipPPO,其示意图如下:研究人员在论文中指出,基于这种方法训练一个hero,采用48块P40GPU卡和18000个CPU核心,一天的训练相当于人类500年,30小时的训练可以达到王者级别,70小时的训练可以媲美职业选手,其性能表现明显优于各种基线方法。并且如前所述,在对人类玩家的测试中,取得了非常可观的成绩。想要了解更多关于这款AI的详情,论文链接放在文末~还有,我会继续挑战“绝武”AI!传送门:https://arxiv.org/abs/1912.09729
