当前位置: 首页 > 科技观察

从打王者到踢足球,腾讯聚物AI再次进化

时间:2023-03-15 13:08:41 科技观察

12月30日,腾讯宣布旗下人工智能团队在首届GoogleFootballKaggle比赛中夺冠。冠军队伍来自腾讯AILab开发的绝武WeKick版本。以1785.8的总分,以显着优势赢得了与世界顶尖技术团队的较量。今年11月底,腾讯AI实验室与王者荣耀联合开发的战略合作AI绝武升级为完整体,让AI首次掌握所有英雄的所有技能。绝武WeKick版整体设计基于绝武完整体的迁移,针对足球任务做了一些针对性的调整,展示了绝武AI背后的深度强化学习方法的通用能力。Kaggle竞赛GoogleFootball排名前十,来自https://www.kaggle.com/c/google-football/leaderboardKaggle成立于2010年,是全球最大的数据科学社区和数据科学竞赛平台。此次足球人工智能竞赛由谷歌研究院和英超曼城在Kaggle平台上联合举办。长期以来,足球队策略以其复杂性、多样性和高难度成为长期困扰全球顶级AI研究团队的难题。稀疏的游戏激励措施也使其成为比MOBA游戏更难的目标。今年,Kaggle首次发布了足球AI领域的赛题,为深度强化学习多智能体技术竞赛和基准评估提供了新的舞台。比赛使用GoogleResearchFootball强化学习环境,基于开源足球游戏GameplayFootball开发,采用11vs11赛制。参赛队伍需要控制其中一名特工和10名内置特工组队,既有挑战性又有趣。一经推出,就吸引了来自全球顶尖大学和研究机构的1100多支实力雄厚的科研团队参与挑战。《11名强化学习代理人的合作与对抗》GoogleFootball(在Kaggle上)仿照流行的足球比赛,就像AI操作的FIFA游戏,代理人控制足球队中的一名或所有足球运动员,学习如何传球他们之间的球,并试图克服对手的防守得分。比赛规则与正常足球比赛相似,如进球是将球踢入对方球门及越位、黄牌和红牌规则。与普通足球游戏统一控制的NPC队伍不同,在本次Kaggle比赛中,每位选手都由一个单独的agent控制,参赛的AI模型根据比赛情况控制其中一个agent。其他10个内置代理合作。这就需要每个玩家不仅需要观察对手的一举一动,还需要关注己方玩家的情况,这就需要非常复杂的团队配合和竞技策略作为支撑。WeKick(黄衫)vsSaltyFish(本届赛事亚军)近期交锋记录(射门)。控球者的下一步动作也需要与己方其他队员配合,才能合法地夺取对足球的控制权。并且由于球场动态瞬息万变,高速实时决策能力也是必不可少的。此外,完全使用强化学习方法从头开始训练一个完整的足球AI实际上是相当困难的。不同于MOBA游戏中的经济、血量、经验等实时学习信号,足球游戏的激励非常稀疏,基本只能靠进球。稀疏激励一直是强化学习的一大难题。绝无AI如何走上冠军之路,得益于深度强化学习在游戏领域的快速发展。从Atari游戏到围棋再到各种不同的电子游戏,AI代理在不断的迭代进化中越来越多。强,攻克球队攻略的难关。绝武WeKick版本首先使用强化学习和自我对弈(Self-Play)从头开始训练模型,并部署了异步分布式强化学习框架。这种异步架构虽然在训练阶段牺牲了部分实时性,但灵活性得到了显着提升,同时也支持训练过程中计算资源的按需调整,适合11-agent足球比赛训练环境。由于MOBA类游戏和足球类游戏在任务目标上的差异,绝武WeKick版采用生成对抗模拟学习(GAIL)与人工设计奖励相结合的方式,在特征和奖励的设计上进行了扩展和创新。本方案采用生成式对抗训练机制来拟合专家行为的状态和动作分布,从而使绝武WeKick版本可以向其他团队学习。然后将GAIL训练好的模型作为固定对手进行进一步的自博弈训练,进一步提高策略的鲁棒性。GAIL的优点(WeKick的奖励设计结合了RewardShaping和GAIL两种方案),但是这种通过自博强化学习得到的模型有一个天然的缺点:容易收敛到单一风格。在实际比赛中,风格单一的模型很容易因为没有见过某种风格的比赛而表现异常,最终导致成绩不佳。因此,为了提高策略的多样性和鲁棒性,绝物也对多智能体学习任务采用了League(多个策略池)多风格强化学习训练方案。这个Leaguemulti-style强化学习训练方案的主要流程可以简单概括为先特化后综合。首先,训练出具有一定竞技能力的基础模型,比如运球、传球配合、进球;然后,在基础模型的基础上,训练多个风格化模型,每个模型专注于一种打法,风格化模型在训练过程中,会定期加入主模型作为对手,避免过分拘泥于风格和基本能力的丧失;最后,在多个基础模型的基础上训练出一个主模型。除了自身的历史模型作为对手外,主模型也会定期加入所有程式化对手的最新模型作为对手,确保主模型能够适应风格完全不同的对手。内部能力评分系统显示,加入对手池训练后的主力模型可以将基础模型提升200分,比最强程式化打法高出80分。最终,基于绝无完整本体的架构迁移,定制化的框架改进,加上关键的生成对抗模拟学习(GAIL)程序和League(多个策略池)多风格强化学习训练方案,使绝无达到最优超越其他参赛AI队伍的优势最终成就了冠军之路。WeKick(黄衫)vsSaltyFish(本次比赛第二名)近期单场战绩(传球)。本次绝武WeKick版夺冠,意味着绝武全面升级后,其背后的深度强化学习解决方案还训练出了适应复杂足球比赛场景的AI模型,彰显了腾讯AILab在前沿的AI技术,也验证了腾讯绝物AI底层架构和方法的通用性。据了解,绝武战队的研究方向正在从足球比赛中单一智能体的控制,走向11个智能体的同时控制和协同作战。当足球中完全独立的智能体数量达到11个时,强化学习的难度会相应增加。随着代理人数量呈指数级爆发式增长,足球代理人之间的差距不大,如何在不同角色之间自动形成角色划分和激励分配一直是多代理强化的难题。在此前的5v5(多智能体)GoogleResearchFootballLeague中,腾讯绝武队也获得了冠军,展示了绝武AI的巨大潜力。从围棋AI绝弈到MOBA游戏AI绝武再到如今的AI足球队WeKick,腾讯AILab的深度强化学习智能体正在一步步进化,逐渐向更复杂多样的问题迁移。通用人工智能的终极目标是坚定前行。长远来看,绝悟背后的研发经验和算法积累,将在未来人工智能与农业、医疗、智慧城市等广阔领域的结合中展现出巨大潜力,创造更大的实用价值。