腾讯AI全靠自学打败王者荣耀职业队,人类一天的训练量是440年。王者峡谷内,风云突变。一场激战正在进行,左边是五名人类职业电竞高手组成的师团联盟,另一边是……嗯?他们的对手没有出现?五个空座位?不,他们的对手在那里。这是昨晚的吉隆坡。王者荣耀最高级别的电竞赛事世界冠军杯半决赛正在火热进行中。启示。在最后的5v5对战中,思维与人类截然不同的AI战队用时16分15秒,全歼电竞职业高手战队,推倒9塔和高地水晶。这意味着腾讯AI的绝对领悟能力已经提炼到了王者荣耀电竞的专业水准。当然,对于非职业选手来说就更难了。同日在上海的ChinaJoy,绝武开启了为期四天的1v1顶级业余玩家体验测试。在第一天的504测试中,绝武测试的胜率高达99.8%,只输了1局(对手是王者荣耀国服第一后羿)。本场比赛首次击败电竞职业战队,五位电竞职业高手组成联赛战队。他们选择的阵容是:曹操(ESTARPRO.XIXI)、娜可露露(EMC.SUN)、武则天(NOVA.SEEK)、狄仁杰(KZ.NIGHT)、张飞(M8HEXA.MIKE)。腾讯AI悟空选择的阵容是:达摩(AI_001)、雅典娜(AI_011)、王昭君(AI_100)、虞姬(AI_000)、牛魔王(AI_010)。游戏开始,人类队伍的水晶在左下角。比赛开局,绝武没有选择传统的人类对线策略,而是先放开上路,双C位英雄虞姬和王昭君先清掉中路第一波兵力对线压制敌人的中路辅助。然后转向打压曹操血脉的道路。这种分配没有经济倾斜。两人吃线,经济效益最大化,每人可分得80%。现场解说说,AI对中间的抢线权了如指掌。比赛开场2分钟,绝武率先在赛区击倒联盟球队的第一塔,将经济优势扩大到5.1k:4.3k。比赛进行到2分半钟,赛区联盟球队曹操击败绝武艾羽姬拿到一血。双方的经济战绩为6.4k。4分24秒,绝武四人追击娜可露露,达摩将娜可露露踢回AI团战。最后,达摩拿下了人工智能的第一个脑袋。这段时间里,绝对开悟的雅典娜是孤身一人,而其他四位AI一直都是一群人。7分20秒,雅典娜反蓝成功。此时绝武拿下3塔4人头20.9k经济,联盟队拿下2塔3人头19.7k经济。现场解说认为,觉悟的效率和团队合作非常出色。“就4-1线转而言,几乎是完美的。”双方立即进入了激烈交锋的阶段。8分48秒,绝武打出0换2团战,积极追杀赛区联盟队血量健康的曹操,血量全剩。不过,绝无也失去了血量最少的达摩,1换1。随后绝无顺势开主宰。随后赛区复活的联盟选手赶来,队伍全歼绝武队,并拉掉了中路2塔,成功反蓝。现场评论指出,AI的策略是“我不想回家,我要打到弹尽粮绝”。这种方法使皮带线更有效率。9分48秒,绝武5塔8人头28.2k经济,联盟队4塔8人头28.9k经济。又过了一分钟,绝武连拿4个人头。其中有10分25秒,赛区联赛球队曹操被AI玉姬带血反杀到上路。在绝武1v1中展现出不错的即时战略能力。再过一分钟,绝武推掉了联盟队中路的高地塔。然而赛区的联盟小队曹操跟进反击,夺走了绝武的四颗头颅,只有雅典娜从AI小队中逃脱。不过此时赛区的联盟队伍并没有继续推塔,也没有拿下霸王。14分钟,绝悟反杀剑圣。此时绝武拿下7塔13人头45.1k经济,师联队拿下6塔12人头43.3k经济。接着,绝武开始不断的清理着各个阵线的人马。15分20秒,绝武四人上路抱团。在霸道先锋的支援下,强行开启了高地塔。双方之间爆发了激烈的团战。在AI王昭君和牛魔的大招支援下,绝武终于打出一波1换5,赛区内的联盟队伍全军覆没。不过在对方团灭+2个优势先锋上高地的时候,绝武并没有选择直接推水晶,而是展示了一波操作……绝武四人轮流打塔在没有士兵支援的情况下,推倒了最后一座还有三分之二血量的高地塔。现场解说员大呼:“太神奇了。”16分15秒,绝武推水晶,击败联盟队。最终绝武9塔18头56.2k经济,师联盟6塔13头48.0k经济。双方的装备和数据如下:Q&A绝武战队在这场历史性的交锋之后,量子比特与绝武战队进行了进一步的交流。量子比特:这次绝武的对手是什么情况?腾讯绝武:5v5对战中最高规格的电竞赛事——世界冠军杯半决赛特别赛段,是由中国大陆/香港、韩国/马来西亚选手组成的赛区联盟。世界杯特别赛段的熟练度测试是5v5版本首次达到职业级别。1v1版本的研发难度明显低于5v5版本。此次在ChinaJoy上测试的1v1版本是首次面向顶尖业余玩家的公测,AI综合实力很强。量子位:觉悟现在有几个英雄?是BP自己完成的吗?腾讯绝武:5v5版本固定十位英雄,职业玩家可以自由装备。未来,我们希望继续扩大英雄池的规模。量子位:绝无的手速限制在什么水平?腾讯绝武:设置类似人的手速限制,因为游戏本身对普攻和技能都有攻速限制,所以总体来说是一个比较公平的测试。量子比特:绝武这次练了多长时间?投入了哪些计算资源?腾讯绝物:训练使用了384个GPU和8.5W核心CPU。平均每天自己玩游戏的次数相当于人类训练了440年,训练周期持续半个多月。量子位:绝物在比赛过程中需要什么样的网络和计算资源支持?腾讯绝物:网络解码不需要太多资源,普通服务器就够了。1v1版本已经有手游版本,目前已在ChinaJoy向顶级玩家开放测试。量子比特:觉悟的弱点是什么?有没有玩家还没有解决的问题?腾讯绝物:有一些行为我们不会称之为弱点,但是非常有趣。比如这个测试,最后不推水晶,想要奖励最大化?比赛结束,人类队伍全灭后,绝舞并没有直接推水晶,而是在计算了整体收益后,选择先推最后一座高地塔,再推水晶直到胜利。这是人类一般不会做的事情,但是符合AI的价值设定,就是经济利益最大化。量子位:人类对手,尤其是职业选手如何评价绝武?腾讯绝武:在前期攻略上,很早就形成了多个AI团,甚至不惜牺牲军线来换取血量优势;中期,超强军线作战策略;长期战略是始终保持在游戏中的主动权;团战的目标选择和控制的衔接也很完美,体现了很强的团队合作能力。量子比特:介绍一下团队。腾讯绝物:是一个长期致力于游戏AI和多智能体研究的团队,部分成员来自围棋AI绝艺团队。绝悟的研发是算法+算力的高度结合,需要极度优化的算力平台和不断完善的优化算法。团队整合了AILab的科研和工程人才资源,也结合了我们腾讯技术与工程事业部(TEG)的基础设施平台部人才。主要工作包括模型、特征、计算能力和数据的优化,机器虚拟化,构建和优化数据处理、并行计算和机器学习训练的平台。腾讯AILab一直是此类智能体研究的先行者。2016年开始研发围棋AI(绝艺),现作为中国国家围棋队训练专用AI;2017年,启动绝物研发;2018年,绝武达到业余最高水平,腾讯还在顶级AI比赛中拍摄VizDoom获得冠军,率先开发出击败内置AI的agent,在《星际争霸2》。量子比特:普通人如何对抗绝武?腾讯绝武:绝武目前只是处于试验阶段,未在游戏中开放。1v1版本将在特定场合进行极短时间的测试,例如8月2日起在上海举办的国际数字互动娱乐展ChinaJoy,1v1版本将开放给顶级业余玩家进行为期四天的体验测试。绝武之路,绝武,是腾讯AI实验室与王者荣耀共同探索的前沿研究项目:战略协同AI。觉悟这个名字的意思是“极好的理解力”。这个AI的研发是从2017年12月开始的,2018年12月,绝悟在王者段位与人类玩家5v5对战,打了250回合,胜率48%。现在,绝武已经超越了王者的层次,达到了职业电竞选手的层次。此次在吉隆坡和上海亮相的绝武版,建立了基于“观察-行动-奖励”的深度强化学习模型。它不需要人类数据,从白板学习(TabulaRasa)开始,让AI自己对弈。AI一天的训练强度相当于人类440年。据腾讯介绍,该AI从0到1探索成功经验,苦学苦练,学会了站位、打野、辅助保护、躲避伤害等游戏常识。此外,人工智能还探索了不同于人类常规方法的全新策略。在上面的实战中,我们已经可以感受到绝武的不同。绝物研发团队还开创了OneModel模式提升训练效率,优化沟通效率提升AI的团队协作能力,并采用零和奖惩机制让AI实现团队利益最大化,果断有奖。游戏内测试的难点在于AI需要在信息不完整、复杂度高的情况下做出复杂而快速的决策。在一张信息不完整的巨大地图上,10名参赛者在战略规划、英雄选择、技能应用、路径探索和团队协作等方面面临着大量不间断的即时选择,带来了极其复杂的局面。据估计,有多达1020000种操作可能性,而整个宇宙的原子总数只有1080个。如果AI能像人类一样实时感知、分析、理解、推理、决策和行动如此复杂的环境,在多变、复杂的现实环境中可能发挥更大的作用。腾讯副总裁姚星表示,短期内“电竞”将成为战略协同AI“绝武”的主要应用场景。从长远应用来看,绝物将是腾讯攻克通用人工智能(AGI)的关键一步。此前,腾讯又一AI大作正在围棋赛场大杀四方。当然,对于人工智能来说,王者荣耀是一个比围棋复杂得多的问题。绝物背后的技术对于此次绝物,腾讯AILab表示,将进一步通过论文等形式分享技术细节,通过开放研究帮助和启发更多研究者。这里我们回顾一下腾讯发表的一篇关于王者荣耀的论文。在这篇论文中,腾讯表示绝务是一种基于学习的分层宏观策略(HierarchicalMacroStrategy)模型。在这种模式的影响下,控制每个英雄的智能体可以独立做出决定,同时不忘与队友沟通,成为顶级玩家。名字中的“分层”是指模型分为注意力层(AttentionLayer)和阶段层(Phaselayer),前者用来预测英雄应该去哪里,后者负责识别什么游戏已经达到的阶段。早、对线或晚。我们先来看看注意力层,这是AI决定其英雄应该去哪里的方式。要发挥这种能力,首先要有合适的训练数据,而在王者荣耀中,判断一个英雄“到此”最合适的标准就是“来战”。所以腾讯在标注训练数据的时候,将下一次攻击发生的位置设置为英雄现在应该去的位置。比如上图以韩信为例,展示了游戏开始时英雄应该去哪里。左边是初始阶段s-1的游戏状态,中间和右边标有ys和ys+1的红框分别是韩信第一次和第二次进攻的位置,也就是他在ins在-1和s的两个阶段中要走的位置。AI的目标是学会在s-1阶段走到y位置,在s阶段学会走到ys+1位置。使用此类数据训练注意力层可以让AI掌握英雄运动的意义。仅仅知道去哪里是不够的。要想成为王者,就必须能够审时度势,调整策略。这是周期层的工作。如果你想知道游戏处于前期、对线阶段还是后期阶段,光靠时间肯定是不够的。幸运的是,游戏中主要资源的状态和阶段是密不可分的。比如英雄还在推外塔瞄准暴君(小龙),那么游戏肯定是刚刚开始;所以,教AI判断情况也是根据对敌方主要资源的攻击,包括塔、暴君、大师(龙)和水晶(基地)。上图展示了period层关注的主要敌人资源。模型需要向它学习的是根据资源状态判断现在应该攻击哪些主要资源,进而判断要完成哪些小目标。比如下图的偷蓝buff(野怪),清底线,都是推塔这段时间的小目标。能分析情况,确定目标,知道去哪里。剩下的就是队友之间的沟通和配合了。但是要学会交流,还真没有人类战斗的数据可以用来训练。毕竟人类队友之间的交流,充满了怨恨。因此,腾讯设计了一种新的跨代理沟通机制,利用队友的注意力标签来训练AI,让它学会预测队友的去向,并做出相应的决策。这样,一个团队中的五个智能体就可以进行协作,也算是一种“沟通”机制。腾讯称之为模仿交叉代理通信。
