本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处转载。据最新消息,腾讯发表了王者荣耀AI“绝武”的新论文,该论文已被AI顶级会议AAAI2020收录。这是继今年8月绝武在5v5比赛中击败职业战队后,腾讯首次公开AI背后的技术细节。腾讯研究人员表示,通过将AI执行时间限制在与业余选手相同的水平(间隔133ms),绝武已经能够单挑顶级职业选手,实现对擅长英雄的碾压。在15场比赛中,职业选手只赢了1场,最多持续不到8分钟。在今年8月的公测中,王者荣耀的1V1AI与众多顶尖业余玩家进行了2100场对战。AI中奖率达到99.81%。貂蝉(法师)、狄仁杰(射手)、花木兰(上单/战士)、露娜(打野/刺客)、鲁班(射手)等英雄,胜率100%。这样的AI是如何训练出来的?我们来看看腾讯最新论文披露的最新细节。30小时达到王者级别,70小时媲美职业选手首先需要指出的是,腾讯这篇新论文的重点是1v1游戏AI,而不是5v5游戏AI。研究人员在他们的论文中解释说,后者更侧重于所有代理人的团队合作策略,而不是单个代理人的行动决策。考虑到这一点,1v1游戏更适合研究游戏中复杂的动作决策问题,也可以更全面、系统地研究游戏AI代理的构建。AI的整体架构分为四个模块:强化学习学习器(RLLearner)、人工智能服务器(AIServer)、分发模块(DispatchModule)和内存池(MemoryPool)。这是一个高度可扩展和低耦合的系统架构,可用于构建数据并行化。主要考虑是复杂智能体的动作决策问题可能会引入高方差的随机梯度,因此需要使用更大的batchsize来加速训练。其中,AI服务器实现了AI模型与环境的交互模式。分配模块是一个用于样本采集、压缩和传输的工作站。内存池是为RL学习者提供训练实例的数据存储模块。这些模块相互独立,可以灵活配置,让研究人员可以专注于算法设计和环境逻辑。这样的系统设计也可以用于其他多智能体竞争问题。在强化学习学习器中,他们还实现了一个演员-评论家神经网络,用于对1v1游戏中的动作依赖性进行建模。为了应对游戏中的多场景决策,研究人员还提出了一系列算法策略来实现更高效的训练:为了帮助AI在战斗中选择目标,引入了目标注意力机制;为了学习英雄的技能释放组合,使AI在序列决策中能够快速输出大量伤害,使用了LSTM;用于构建多标签近端策略优化(PPO)目标,并使用动作依赖的解耦;为了指导强化学习过程中的探索,提出了一种基于博弈知识的剪枝方法;为了保证在使用大而有偏差的数据batch进行训练时的收敛性,改进后的PPO算法提出了dual-clipPPO,其示意图如下:研究人员在论文中指出,基于这种方法训练一个hero,采用48块P40GPU卡和18000个CPU核心,一天的训练相当于人类500年,30小时的训练可以达到王者级别,70小时的训练可以媲美职业选手,其性能表现明显优于各种基线方法。并且如前所述,在对人类玩家的测试中,取得了非常可观的成绩。如果你想了解更多关于这个AI的细节,我们把论文链接放在了文末~来自腾讯AILab和天美工作室,还在搭建一个开放平台。与2018年12月发布的王者荣耀AI论文作者单位相比,这次多了“天美工作室”——王者荣耀的开发团队。除了研究,腾讯AILab与王者荣耀还将联合推出“启蒙”AI+游戏开放平台。王者荣耀将开放游戏数据、游戏核心集群(GameCore)和工具,腾讯AILab将开放强化学习和模仿学习的计算平台和算力,邀请高校和研究机构共同推进相关AI研究,并定期通过平台评估,展示多智能体决策研究的实力。目前,“悟道”平台已开启高校内测,预计2020年5月全面开放高校内测,测试环境支持1v1、5v5等模式。腾讯方面透露,计划于2020年12月在王者荣耀的应用中进行AI的第一级测试。
