当前位置: 首页 > 科技观察

AI争霸、星际争霸……背后的技术你还不知道吗?这里回顾一下游戏AI

时间:2023-03-12 13:17:46 科技观察

人机游戏历史悠久,已经成为验证人工智能关键技术的主流。图灵测试可以说是第一个人机对抗测试,它启发了研究人员设计出各种人工智能来挑战专业的人类玩家。例如,1989年研究人员开发了以击败世界冠军为目标的跳棋程序Chinook,1994年Chinook击败了美国跳棋冠军MarionTinsley。在随后的时间里,IBM的深蓝在1997年击败了国际象棋大师加里卡斯帕罗夫,开启了国际象棋历史的新纪元。近年来,我们见证了游戏AI的飞速发展,从Atari、AlphaGo、Libratus、OpenAIFive到AlphaStar。结合现代技术,这些人工智能在一些游戏中击败了专业的人类玩家,标志着决策智能领域的快速发展。AlphaStar(DeepMind开发的计算机程序)和OpenAIFive(美国人工智能研究与OpenAI开发)分别在星际争霸和Dota2中达到职业选手水平。现在看来,目前的技术可以处理非常复杂的不完全信息游戏,尤其是游戏的突破,比如最近火的王者荣耀,都是采用类似AlphaStar和OpenAIFive的框架。我们不禁要问:人机游戏AI的未来趋势或挑战是什么?中国科学院自动化研究所和中国科学院大学的研究人员回顾了最近典型的人机游戏AI,并试图通过对当前技术的深入分析来回答这些问题。论文地址:https://arxiv.org/pdf/2111.07631.pdf具体来说,该研究共调查了四种典型的游戏类型,即围棋棋盘游戏;第一人称射击游戏(FPS)(QuakeIIIArena);实时战略(RTS)(星际争霸、Dota2和王者荣耀)。上述游戏对应的AI有AlphaGo、AlphaGoZero、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAIFive、JueWu、Commander。图1简要概述了本文研究的游戏和一般人工智能:在第2节中,研究描述了本文涵盖的游戏和使用的人工智能;、FPS游戏和RTS游戏对应的AI;在第7节中,总结和比较了各种游戏中使用的不同技术;在第8节中,提出了当前游戏AI面临的挑战,这可能是该领域未来的研究方向。最后,第9节总结了本文。典型游戏与AI下表提取了不同游戏中挑战智能决策的关键因素,如表1所示:上表列出了不同游戏的优缺点。我们需要根据不同的游戏类型分配不同的AI。由于不同的游戏具有不同的特点和不同的解决方案,研究人员开发了不同的学习策略来构建AI系统。在本文中,AI的分配不同:棋盘游戏的AlphaGo、AlphaGoZero、AlphaZero;分别用于纸牌游戏HUNL、Gaming和Mahjong的Libratus、DeepStack、DouZero和Suphx;FPS游戏IIIArena中Quake的FTW;AlphaStar、Commander、OpenAIFive和JueWu分别用于星际争霸、Dota2和王者荣耀。对应不同游戏的AI桌游AIAlphaGo系列由AlphaGo、AlphaGoZero和AlphaZeo组成。2015年问世的AlphaGo以5-0击败欧洲围棋冠军范辉,这是软件首次在全尺寸棋盘上与职业棋手交手。之后,DeepMind为AlphaGoZero开发了新的训练框架,在没有事先专业人类对抗数据的情况下取得了优异的性能。AlphaZero,是一种通用的强化学习算法。AlphaGo系列赛的总结如图2所示:AlphaGo系列框架抽牌牌局AI牌局作为典型的不完全信息游戏,长期以来一直是人工智能的挑战。DeepStack和Libratus是在HUNL中击败职业扑克玩家的两个典型的AI系统。它们共享底层技术,即两者在CFR上在理论上是相似的。随后,研究人员将注意力集中在麻将和游戏的新挑战上。Suphx由微软亚洲研究院开发,是第一个在麻将比赛中超越大多数顶级人类玩家的人工智能系统。DouZero专为游戏而设计,是一个有效的人工智能系统,在Botzone排行榜的344个人工智能代理中排名第一。卡牌游戏AI的简要框架如下图所示:卡牌游戏AI的简要框架第一人称射击(FPS)游戏AIQuakeIIIArena是一款典型的3D多人第一人称视角视频游戏,其中两个对立的球队在室内或室外地图上相互对抗。CTF设置与现代多人视频游戏有很大不同。更具体地说,CTF中的代理无法访问其他玩家的状态,而且团队中的代理无法相互通信,这样的环境是学习代理通信和适应零样本生成的最佳测试平台.零样本是指agent不进行合作或对抗训练,可以由人类玩家和任何AIagent进行训练,并且只基于像素和人类等游戏点作为agent的输入,学习FTW框架的agent可以达到人类级别的性能。游戏CTF的FTW框架如下图所示:游戏CTF的FTW框架RTS游戏AIRTS(即时战略)游戏是一款典型的电子游戏,多达数万人对战,而RTS通常被用作人机游戏的试验台。此外,RTS游戏通常具有复杂的环境,比以前的游戏更能捕捉到现实世界的本质,使此类游戏的适用性更高。由DeepMind开发的AlphaStar采用通用学习算法,在星际争霸三项赛事中均达到大师级别,超过99.8%的人类玩家(总计约90,000名玩家)。作为轻量级计算版本,Commander遵循与AlphaStar相同的训练架构,使用更少的计算权重,并在现场比赛中击败了两位大师。OpenAIFive旨在解决Dota2游戏,这是第一个在电子竞技游戏中击败世界冠军的人工智能系统。作为一款与Dota2类似的电竞游戏,《王者荣耀》面临着最相似的挑战,绝武成为第一个可以在不限制英雄池的情况下玩完整RTS游戏的AI系统。典型RTS游戏的简单AI框架如下图所示:AsimpleAIframeworkforatypicalRTSgameChallengesandfuturetrends虽然计算机游戏已经取得了长足的进步,但目前的技术仍然面临着很多挑战,比如对计算的严重依赖资源等,这将激发未来的研究。大模型如今,大模型,尤其是预训练大模型,正在从自然语言处理发展到计算机图像处理,从单模态发展到多模态。即使在零样本设置中,这些模型也展示了它们在下游任务中的巨大潜力,这是在寻求通用人工智能方面向前迈出的一大步。OpenAI开发的GPT-3拥有超过1750亿个参数,在各种与语言相关的任务中表现良好。但是,游戏中基本上没有大模型,目前复杂游戏的模型要比参数多的小很多。如表2所示,AlphaStar和OpenAIFive分别只有1.39亿和1.59亿个参数:考虑到大模型是对通用人工智能比较好的探索,如何在游戏中为人工智能设计和训练大模型可能是新的解决方案将为那些时序决策域提供。为了做出这样的尝试,该研究认为至少需要慎重考虑两个问题:一是游戏任务与自然语言处理任务有很大的不同,因此如何明确训练目标是大型模型的关键一步;其次,由于游戏难度的不同,如何设计合适的训练机制难度更大。训练方法应该能够应对各种游戏,并确保学习不倒退。低资源人工智能为了在复杂环境中训练专业级人工智能,通常需要大量的计算资源。从表3可以得出结论,我们需要大量的资源投入来训练AI。我们不禁要问,是否有可能用有限的资源训练出专业级的人工智能。一个直观的想法就是引入更多的人类知识来辅助学习,强化学习可以说是未来的一个发展方向。另一方面,开发理论和易于计算的进化策略将是低资源人工智能系统的关键一步。评价对代理商进行准确的评价是目前的一个难题。人机游戏通常使用基于获胜概率的评估标准(针对专业人类玩家),如表4所示。但是,这种评估是粗略的,尤其是在有限的非迁移游戏测试中。如何为大多数游戏制定系统的评估标准是一个重要且悬而未决的问题。研究者希望通过本文,让初学者能够快速熟悉游戏AI领域的技术、挑战和机遇,启发研究者在进行更深入研究的道路上。