高能AI在各种游戏中打败人类,这些新闻近年屡见不鲜。无论是早些年的棋牌问答类游戏,还是近年的围棋、星际争霸、Dota2。在AI选手面前,人类职业选手差点被打得落泪。今天,AI赛车手再次战胜人类选手,登上Nature封面!索尼公司研发的AI《GT苏菲》将电子赛车游戏加入上述榜单:不管是日本还是其他国家的顶级电竞选手,在1000台PS4的GT赛车上都敌不过索尼控制台。人工智能。GTSophy,或亲切地称为“Sophie”,是索尼内部AI部门、PDI工作室和互动娱乐子公司的联合研发项目,历时5年多。AI事业部提供深度学习算法,负责训练模型;PDIStudio制作的游戏作为AI训练和验证的环境;InteractiveEntertainment公司的云计算架构将数千台PS4主机串联起来,作为一个大规模的训练架构和平台。作为一名神经网络车手,GTSophy在遵守赛车规则的同时展示了非凡的速度、操控和驾驶策略。斯坦福大学教授克里斯蒂安·格德斯在《自然》杂志的一篇文章中写道:“在这场正面交锋的比赛中,人工智能驾驶员如此娴熟地??胜过人类玩家,这一事实代表了人工智能的里程碑式成就。”《龙道上演》《速度与激情》到底有什么了不起???说白了,赛车的目的很简单,就是在更短的时间内超越你的竞争对手,你就赢了。《速度与激情》中的硬核碰撞让人热血沸腾,但真正赛场上的终极对决却需要真正的战术。索尼PDI工作室在东京提供了场地,邀请全球GT赛车游戏的顶级电竞选手与《GT索菲》及其变种同台竞技。游戏摘录GT苏菲与人类玩家的第一场比赛,就选择了龙迹的场地进行了一场精彩的对决。整条跑道全长5209米,分为S1、S2、S3三段,17个弯道。比赛起跑位置按照AI和真人顺序排列,共有8位车手。然而,比赛一开始,名为Violette的GTSophy的人工智能变体就成功超越了人类车手,获得第二名。AI队友波尔多(Bordeaux)一直保持着第一的位置。T2/3回合,AI选手Verte冲到人类选手山中智英面前。比赛进行到一半,排名第一和第二的苏菲AI选择了最优路线,没有阻拦。当比赛进行到最后一段S3时,车手们不得不绕过T17的大弯才能快速冲向终点。比赛结果显示,在前三名的赛车手中,GT苏菲占据了两个席位,只有人类选手国分凉太冲进了前三名。KokubenRyota一直是一位沉着冷静的赛车手。2019年获得国际汽联运动车锦标赛东京国家杯第五轮和2020年国际汽联GT锦标赛国家杯季军。这个结果的出现,其实从资格赛就可以看出。屏幕右侧的AI玩家不仅在过弯时更加稳定,而且选择的路线也明显优于人类玩家。在游戏中马焦雷湖赛道的另一场比赛中,四名人工智能击败了四名人类对手。本次比赛AI军团表现最为出色的选手“GT罗格”在比赛的三个计分圈中均处于第一的位置,领先最快的人类选手5秒多。但在马焦雷湖赛道上,部分AI车手出现失误,转弯时转向不足,撞墙等情况。在2021年7月的实验中,GT苏菲只能在没有其他车辆的虚拟空跑道上行驶,超越了人类玩家的纯赛车成绩。训练到2021年10月,在真实的赛车比赛中击败一群人类对手。2020年GT世界杯的明星车手宫园拓马表示,“我们甚至无法想象AI会如何驾驶”,但他也承认,“GT苏菲”的战术决策很有用。被AI打败的宫园拓马一脸不满。由此可见,赛车不仅仅是速度和反应时间的问题。驾驶赛车是非常考验人的极限策略的,所以机器想要掌握它并不容易。正如Nature文章所指出的那样,实现这一目标需要克服极其复杂的物理挑战,因为在赛道上驰骋需要小心利用轮胎与地面之间的“有限摩擦力”。例如,使用摩擦力制动可以减少转弯所需的力。更具体地说,每个接触地面的轮胎都会产生与垂直力成正比的摩擦力或载荷。汽车加速时,载荷转移到后轮胎,前轮胎的摩擦力减小。这可能会导致转向不足,方向盘无法产生更多的转弯力,从而在出弯时保持事实上的手刹。相反,当汽车制动时,负载转移到汽车的前部。这可能导致转向过度,这意味着后轮胎失去牵引力并且汽车剧烈旋转。再加上复杂的赛道地形,以及悬挂车辆调整负载转移的复杂性,赛车的挑战变得显而易见。为了赢得比赛,车手必须选择一条尽可能使汽车保持在摩擦极限内的轨迹。如果你在转弯时刹车太早,你的车会减速并浪费时间。刹车太晚,将没有足够的转弯力来保持您想要的赛车线。另外,刹车太猛会导致汽车打滑。虽然赛车的操控极限很复杂,但物理学已经很好地解释了它们。所以,他们能够被计算或者学习,也是理所当然的事情。在一场正面交锋中,GT索菲并没有利用单圈时间优势,而是在最后轻松超越了对手。例如,在第一场比赛的最后冲刺节点,2名人类赛车手试图挡住2名AI赛车手的路径。但GT苏菲却设法找到了两条不同的路线,最终超越了人类选手,冲向了终点。通过神经网络模型训练后,GT苏菲学会了在不同情况下通过弯道的路线。那么,这个AI超人赛车手是怎么变成的呢?如何制作AI赛车手?与其他规则和玩法固定的游戏不同,GT赛车游戏中玩家的战术选择非常开放。而GT赛车游戏的特点就是更好地模拟了现实世界中的物理定律。因此,AI要想在虚拟世界和现实世界双重难度的GT赛车游戏中游刃有余并非易事。首先,我们需要一个超现实的模拟器作为训练环境。GranTurismo?Sport(GTSport)是PolyphonyDigital与FIA(FederationInternationaleAutomobile)合作设计和制作的PlayStation4驾驶模拟器。GTSport有明确的规则和判断标准,不用“猎豹”也能保证公平的竞争环境。(doge)此外,GTSport尽可能地再现了真实世界的赛车环境,包括赛车、赛道,甚至空气阻力和轮胎摩擦力等物理特性。在汽车制造商的指导下,从车身曲线到车身面板之间缝隙的宽度以及转向灯和前灯的形状,汽车的细节都得到了准确的再现。游戏环境搭建完成后,接下来就是配置训练环境了。DART是SonyAI为此量身定制的网络架构,让研究人员可以使用InteractiveEntertainment的云计算游戏平台串联连接1000台PS4游戏机,对GTSophy进行长期训练。数以千计的PS4主机阵列,游戏屋的奢华梦想。在这样的架构上,不同地方的各个数据中心之间的所有计算资源都得到了有效的整合。研究人员可以轻松确定实验参数,将实验配置为在云资源可用时自动运行,并收集可在浏览器中查看的数据。研究人员已在此平台上成功进行了数百次仿真实验,将人工智能的技战术提升到了前所未有的高度。最后就是AI车手GTSophy的训练。与那些在游戏中打败人类的AI前辈一样,GT苏菲也采用深度强化学习进行训练,以避免一开始就人为地将游戏行为编码成复杂庞大的行为规则数据集。当代理GTSophy在训练环境中采取行动时,算法会根据其导致的结果对其进行奖励或惩罚。在受到奖励(或惩罚)后,GTSophy更新其对世界的知识以确定其下一步行动。索尼AI研究人员和工程师开发了创新的强化学习技术,包括一种新的训练算法QR-SAC,它为AI各种高速驾驶决策提供了规则和物理约束内的合理结果分析。并对智能体可理解的赛车规则进行编码,并获得提升微妙赛车技能的训练方案。在强化学习中,AI赛车手需要考虑自己行为的长期后果,在学习过程中可以独立收集自己的数据,避免了复杂的手工编码行为规则。当然,处理像GranTurismo这样复杂的领域仍然需要同样复杂和细致入微的算法、奖励和训练场景。在训练的后期,研究人员加入了不同数量的对手来训练GTSophy对抗人类司机。从结果来看,索尼研发的算法可以说是出类拔萃。经过短短几个小时的训练,GTSophy已经上了赛道,“一两天内”比其训练数据集中95%的车手都快。当然,95%是远远不够的。经过大约45,000小时的训练,GTSophy终于在三个赛道(克罗地亚海滨巨龙赛道、意大利马焦雷湖大奖赛赛道和法国萨尔特赛道)上全面超越人类车手。但是,总结与人类的竞争,人工智能有很多先天的优势,比如完美的记忆力和快速的反应时间。特别是GTSophy,它拥有精确的赛道地图,其中包含赛道边界坐标和“关于每个轮胎负载、每个轮胎的侧偏角和其他车辆状况的精确信息”。但是,还有另外两个因素可以限制:动作频率和反应时间。GTSophy的输入信号被限制在10赫兹,而人类的理论最大值为60赫兹,这有时可以让人类驾驶员在高速时“更平稳地操纵”。在反应时间方面,GT苏菲能够在23-30毫秒内对比赛环境中的事件做出反应,远快于职业运动员预估的200-250毫秒的最大反应时间。为了弥补这个缺点,研究人员加入了人为的延迟,用100毫秒、200毫秒和250毫秒的反应时间训练GTSophy。即便如此,GTSophy在“所有三项测试”中都取得了超人的圈速。索尼AI事业部负责人坦言,AI要学会在文明比赛中不卑不亢是相当困难的。面对对手时,既不能太急躁,也不能太谨慎,在战术上做出决定,仍然是一项艰巨的任务。首先,让AI在了解游戏环境中的虚拟赛车位置、虚拟气动模型、赛道图形、基本驾驶动作的基础上学习驾驶;最后,让AI学习必要的赛道礼仪规则,比如避免恶意犯规冲撞、尊重对方球道安全等等。赛车控制QR-SAC算法可以明确推理出GT索菲高速动作的各种可能结果。考虑到驾驶行为的后果和不确定性,有助于GTSophie在物理极限下转弯,并在与不同类型的对手比赛时考虑复杂的可能性。 赛车战术,将训练纳入混合场景,使用在每条赛道上可能至关重要的人工制作的比赛情境,以及帮助代理学习这些技能的专门对手。这些技能培养计划帮助GTSophy获得了专业的赛车技术,包括处理拥挤的起步、弹射超车以应对滑流障碍以及防御性机动。赛车礼仪为了帮助GTSophy学习赛道礼仪,索尼AI研究人员找到了一种方法,可以将成文和不成文的赛车规则编码成复杂的奖励函数。团队还发现,需要平衡对手的数量,以确保GT苏菲在训练赛中表现出恰到好处的竞争力,而不会在与他人竞争时变得过于激进或胆小。
