当前位置: 首页 > 科技观察

这场比赛让数百名AI智能体“卷起来”

时间:2023-03-19 00:23:55 科技观察

过去几年,随着神经网络、基于强化学习的自我对弈、多智能体学习、模仿等通用机器学习理论的突破学习,AI代理的决策能力有了突飞猛进的发展。可以看出,无论是谷歌、微软、IBM等全球科技巨头,还是国内一批领先的AI企业,在学术研究和研究上都着眼于从智能感知到智能决策的转变。工业实施。“决策AI”已成战场。5月,谷歌旗下的DeepMind发布了Gato,这是一种新的人工智能代理,能够“在广泛的环境中”执行604种不同的任务。加托的诞生,再次刷新了单体特工的能力上限。当然,对AI决策能力的探索不会仅限于此。如果大量智能体在接近现实世界的开放决策环境中“相遇”,它们会做出怎样的判断和选择,又将如何分工、合作和竞争?羊毛布?近日,由超参数科技发起,麻省理工学院、清华大学深圳国际研究生院、知名数据科学挑战平台AIcrowd共同主办的“IJCAI2022-神经MMO大规模AI团队生存挑战赛”落下帷幕.在这个游戏中,我们发现了一些新探索的可能性。复杂环境下的多智能体博弈近年来,多智能体环境已经成为深度强化学习的有效研究平台。目前强化学习环境要么不够复杂,但约束太多,不具有普适性;或约束太少,但太简单。这些问题限制了更高复杂度任务的创建,难以激发多智能体的高阶决策能力。2019年麻省理工博士学生JosephSuarez在OpenAI实习期间开发了NeuralMMO。他借鉴大型多人在线游戏(MMO)来模拟一个拥有不同数量代理的庞大生态系统,让他们在持久、广阔的环境中进行竞争。业内人士普遍认为,“这个模拟还是挺有意思的”。不同于以往注重技术层面的AI游戏对战环境,NeuralMMO涉及AI的长期判断和选择,考验的是智能体的决策能力。《IJCAI2022-NeuralMMOMassiveAITeamSurvivalChallenge》使用上述环境。据主办方介绍,选择NeuralMMO主要基于两点:第一,NeuralMMO类似于开放世界生存游戏。它有一个自运行的系统,定义了收集、攻击和生存等基本机制。其次,它支持海量人工智能共存、交互和策略涌现。这样的环境很少见,无论是在学术界还是工业界。NeuralMMOEnvironment在此游戏中,每场比赛包括16支队伍,每支队伍包括8名代理人。这些特工队必须在128x128的地图上自由战斗。根据主办方的设计,每支智体队伍必须达成四项成就:觅食、探索、竞技、打怪。这意味着每个环境中有128个智能体同时做出决策,每个团队中的8个智能体必须有效合作并为不同的目标分工。在这种情况下,每个智能体都必须发挥自己的优势,而在必要的时候,为了让团队取得“最后的胜利”,部分智能体必须学会“主动送人头”。鉴于环境中有多个智能体同时学习,智能体不仅需要考虑他们期望的奖励,还需要考虑他们的对手可能采取的策略。此外,每场比赛必须完成四项任务。在逐层设置下,每个智能体面临的“选择”具有更高的决策复杂度。一场“碾压”大量智能体的学术竞赛,除了要找到好问题,还要有足够多的好选手。为此,主办方在赛事规则、工具、赛事支持等方面对NeuralMMOChallenge进行了全面优化。在工具层面,《IJCAI2022-NeuralMMOMassiveAITeamSurvivalChallenge》对提交系统进行了升级,将首次提交成功到返回结果的时间从两个多小时缩短为十几分钟;提供了全新的StarterKit和Baseline。在StarterKit中,参赛者只需运行一次代码即可完成第一次提交;在Baseline中,用户只需要训练两天就可以完成Stage1,胜率为0.5,训练四天后,可以获得Stage10.8的胜率。这些设计帮助参赛者在初始阶段快速熟悉规则,从而节省大量时间。利用节省下来的时间,参赛者可以专注于定义Agent在NeuralMMO环境中的决策方法,例如设计奖励信号。在赛制方面,本次NeuralMMOChallenge采用PvE和PvP相结合的方式。在PvE阶段,各阶段内置AI的难度会逐渐提升,参赛者会感受到“梯度”。第1阶段难度最低,包含一些基于简单规则编写的开源脚本。之后,第二阶段的难度会变高。主办方将基于经典的PPO算法对内置AI进行训练,并加入自我对弈(Self-Play)训练机制。到了第三阶段,智能体的综合能力得到进一步提升,玩家们面对的已经是高度团结的竞争队伍。PvE阶段,成就值25的队伍可以晋级;但在PvP阶段,难度增加,战斗目标从内置AI变为其他参战队伍。让8个agent组队完成一个任务是合作博弈中的经典问题。如果说在PvE阶段的前两个阶段,单打独斗也能取得一些成绩,那么随着环境内置AI不断变强,然后对手从环境内置AI变成现实世界中的参与团队,智能化的小团队也需要完成一次脱胎换骨的进化,才能理解如何实现“团队最优决策”。基于以上改进,不同层次的参与者都可以在本次活动中找到自己的目标。但与此同时,要想夺得榜首,agent的综合决策能力必须经得起考验,这就需要玩家在agent的算法设计上有更深入的思考。RL算法玩家,后来者。经过三个月的激烈角逐,两支来自行业的队伍脱颖而出,包揽了本次挑战赛的冠亚军。有趣的是,两支队伍都使用了强化学习算法,并且都在最后一个月进行了比赛。冠军战队LastOrder提到,与其他现有的多智能体环境相比,MMO的内容更加丰富,如生存、战斗、升级、团队PK、随机地图等。与其他同类比赛不同,NeuralMMOChallenge具有参与者的规则和限制非常少,这也为强化学习算法的应用提供了广阔的空间。NeuralNoob获得亚军。他认为NeuralMMO最明显的特点就是支持的agent数量多。游戏设置为128,但实际上可以增加到数千甚至更多。“这是一个多任务的环境,每个智能体在履行职责的时候都需要改变自己的策略,这具有更大的研究价值。”比赛期间,LastOrder设计了分布式强化学习训练框架Newton,该框架具有高度的灵活性和可扩展性。他们使用奖励设计等方法间接鼓励代理人做出合理的行为。在设计合理的奖励、神经网络结构等后,他们观察到经过深度强化学习训练的智能体会自发出现合作行为。“启发式算法的优点是思维更简洁,反馈更直接。相比之下,强化学习需要更长的训练时间来调整网络结构和参数。”LastOrder表示,“但强化学习算法能够达到的能力上限更高,探索价值也更大。”NeuralNoob也采用了强化学习算法,整体解决方案是ppo算法加self-play训练机制,所有agent以8个agent为一组进行训练,value部分会使用整个team的Sharerepresentations,按照CTDE.在LastOrder看来,MMO平台还有更多的想象空间:比如可以引入更多的游戏元素,甚至成为一个开放的网络游戏,推动Humanintheloop等领域的相关研究。NeuralNoob持有类似的观点,他认为可以有更多的设备供agent选择,并设置一个安全区,agent到达安全区后不能发起攻击,同时可以交易在NeuralNoob的设想中,甚至可以让agent临时与敌方agent合作,共同击杀一些强大的内置AI。符合现实世界中合作与竞争并存的关系。NeuralNoob认为,这些都是强化学习目前难以做到的地方。和openaifive一样强大,生产路线是通过手写规则实现的,因为从设计到设备选择训练样本的比例必然很小,但是依赖链很长。.智能决策的“今天”和“未来”从长远来看,NeuralMMO环境提供了一个广泛的、高自由度的学术框架,可以促进一些人群层面的行为研究,比如如何高效地组建团队,甚至可以衍生出社会学和经济学的概念研究,这些都是现阶段相关领域还存在瓶颈的研究方向。正因如此,“IJCAI2022-NeuralMMOMassiveAITeamSurvivalChallenge”在学术研究层面的意义也更加凸显。对于任何关于决策智能的学术研究,人们都希望它能够在真实的工业场景中发挥作用,包括但不限于商业博弈和量化交易。在现实生活中,决策成本可能非常高。这是因为,一方面,决策会直接导致结果,因此决策层的好坏直接关系到结果带来的收益;环境相当复杂,如果要在现实世界中做预览,成本会很高。在学术界和工业界探索智能决策的过程中,NeuralMMO无疑希望成为一个很好的实验载体。但在现实中,智能决策往往更加复杂,决策链条也更长。如何进一步模拟,让NeuralMMO更接近真实的决策环境,需要整个行业长期探索。据了解,超参数技术将在2022年NeurlPS大会的基础上举办新一轮的NMMO挑战赛。与《IJCAI2022-神经网络MMO大规模AI团队生存挑战赛》相比,新赛事增加了交易系统、丰富的装备品类、多职业分工、毒圈机制,使其本已开放的环境更适合现实决策-制作环境。同时,智能体之间不断丰富的合作与竞争交互模式也大大增加了决策的多样性、策略的深度以及合作与竞争的可能性。在NeuralNMMO系列挑战赛中,智能体与环境内置AI、敌方智能体、队友之间发生大量交互,形成实时反馈,在动态决策中达成最优决策-制作环境。该研究成果促进了智能决策技术的发展。在不远的将来,智能决策技术将成为数字化转型的加速器,推动能源、物流、工业等产业领域的研究落地和成果转化,并提供相对“确定”的答案到更多“不确定”的真实决策场景。