“这是怎么回事?”艾米莉·琼斯不敢相信她落后了。多次获得顶级GT游戏车手的EmilyJones拍着她的电竞专用方向盘,盯着她面前的屏幕:“我尽力了,但我没能抓住——这是怎么回事?”在GT(GranTurismo)游戏中,琼斯以每小时120英里的速度驾驶她的汽车。为了追上世界上最快的“游戏玩家”,她几次将车速开到140、150英里。这个“玩家”其实就是一个叫做GTSophy的人工智能。由SonyAIResearchLabs于2020年发布,它使用人工智能学习如何在GT游戏中控制汽车。在2021年的一系列闭门赛事中,索尼安排了AI与顶级GT赛车手进行比赛。2021年7月,琼斯作为电子竞技团队TransTasmanRacing的成员参加了索尼组织的一项活动,但她当时并不知道会发生什么。“没有人给我任何信息。只是告诉我我不需要做任何练习,也不关心单圈时间,”她回忆道。“我的态度也很单纯,所以保守秘密,绝对不是什么坏事。”最终,GTSophy以1.5秒的优势击败了Jones的最佳成绩——人类赛车手创造的GT记录基本上是以毫秒为单位的,1.5秒意味着巨大的差距。但索尼很快了解到,光靠速度还不足以让GTSophy成为赢家。它在单人赛道上的表现优于人类司机,以令人难以置信的成绩打破了三个不同赛道的记录。然而,当索尼让它与多名人类司机进行较量时,它输了——多人赛车不仅需要速度,还需要一定的智慧。GTSophy有时会因为过于咄咄逼人和鲁莽而受到惩罚,有时它又过于懦弱,在不需要的时候让步。索尼重新训练了AI,并在2021年10月进行了第二轮比赛。这一次,GT索菲轻松击败了人类玩家。它做了哪些改变?首先是索尼构建了更大的神经网络,程序的性能更强大,但本质上的区别是GT索菲学会了“赛道礼仪”。美国负责人彼得·沃曼(PeterWarman)表示,这种礼仪被人类司机广泛遵守,其本质是能够平衡进取和让步,并在瞬息万变的赛场上动态选择最合适的行为。这也是GT苏菲超越赛车游戏人工智能的原因。他说,赛道上的驾驶员互动和礼仪是一种特殊情况,其中表现出的动态、情境感知行为正是机器人在与人类互动时应该具备的。识别何时承担风险以及何时谨慎行事对人工智能非常有用,无论是在制造车间、家用机器人还是自动驾驶汽车上。说:“我不认为我们已经学会了如何处理必须遵循的人类规范的一般原则。但这是一个好的开始,希望它能让我们深入了解这个问题。”GTSophy只是打败人类的众多人工智能系统之一,从国际象棋到星际争霸和Dota2,AI打败了世界上最优秀的人类玩家。然而GT游戏却给索尼带来了新的挑战。与其他游戏不同,尤其是那些回合制游戏,GT要求顶级玩家在物理极限(非常高的速度)下实时控制车辆。在一场比赛中,所有其他选手都在做同样的事情。一辆虚拟赛车以每小时100英里的速度呼啸而过,其车身距离弯道边缘仅几英寸。在这样的速度下,即使是最轻微的错误也可能导致碰撞。据悉,GT游戏以详细捕捉和复制真实世界的物理特性、模拟赛车的空气动力学和轮胎在赛道上的摩擦力而著称。该游戏有时甚至用于训练和招募现实世界的赛车手。“它在逼真方面做得很好,”瑞士苏黎世大学机器人和感知小组负责人戴维德·斯卡拉姆扎(DavideScaramuzza)说。他没有参与GTSophy项目,但他的团队曾用GT游戏训练AI司机,尚未在人体上进行过测试。GTSophy的游戏方式与人类玩家不同。它不是读取屏幕上的像素,而是获取有关自身在赛道上的位置和周围车辆位置的数据。它还接收有关影响其车辆的虚拟物理力的信息。作为回应,GTSophy控制汽车转弯或刹车。这种GTSophy游戏交互每秒发生10次,他和他的同事声称,这与人类玩家的反应时间相似。索尼使用强化学习通过反复试验从头开始训练GTSophy。起初,AI只能尽量让车保持在路上。但在对10台PS4(每台运行20个程序实例)进行训练后,GTSophy在大约8小时内提高到GT内置人工智能的水平,相当于业余玩家。在24小时内,它就在17,700名人类玩家的最佳得分排行榜上名列前茅。GTSophy用了9天的时间缩短单圈时间。最后,它比任何人类玩家都快。可以说,索尼的人工智能学会了如何在游戏允许的极限下行驶,完成了人类玩家无法企及的动作。最让琼斯印象深刻的是GTSophy的转弯方式,它向前刹车,以更紧凑的路线加速驶出弯道。“GTSophy以一种奇怪的方式对待这条线,并且做了我从未想过的事情,”她说。例如,GTSophy经常将轮胎压到赛道边缘的草地上,然后滑入弯道。.大多数人不会这样做,因为这太容易出错了。就像您可以控制崩溃一样。给我一百次机会,我可能只成功一次。“GTSophy很快就掌握了比赛的物理原理,但更大的问题是裁判。在职业赛场上,GT比赛由人类裁判监督,对危险驾驶有扣分的权力。累计处罚是GTSophy的2021A它在2007年7月的第一轮比赛中失利的关键原因,尽管它比任何人类车手都快,但在几个月后的第二轮比赛中,它学会了如何避免罚分,结果大不相同。多年来一直在GTSophy工作。他办公桌后面的墙上挂着一幅两辆车争夺位置的画。他说:“这是GTSophy接管山中。”他指的是It's顶级GT日本车手山中智明,2021年参加GTSophy比赛的四位日本职业模拟赛车手之一。他不记得图片是哪场比赛。如果是2021年10月的比赛,山中伸弥很可能会喜欢,因为他面对的是一个强大但公平的对手。如果这是2022年7月的事件,他很可能因为不知道该做什么而对着电脑大骂。Yamanaka的队友TakumaMiyazono在2022年7月通过翻译软件给了我们一个简短的描述。他说:“我们被(GTSophy)撞出了赛道几次,因为它转弯时过于激进。这让我们很生气,因为人类玩家会放慢速度当转弯以避免驶出赛道时。“很难训练人工智能在不失去竞争优势的情况下公平比赛。人类裁判做出依赖于环境的主观决定,使得人类很难将其转化为人工智能可以学习的东西,比如哪些行为可以做什么,哪些不能做。索尼研究人员试图为人工智能提供许多不同的提示,以供其回忆和调整,希望找到一种有效的组合。如果它跑出赛道或撞到围栏,造成车辆碰撞或可能被裁判判罚,那么它就会被判罚。他们试验、观察并调整了每项惩罚的强度,并检查了GTSophy的驾驶风格如何变化。索尼也增加了GT苏菲在训练中面临的竞争。在此之前,它主要使用旧版本的自身进行训练。2021年10月复赛前,索尼每隔一两周就会邀请顶级GT车手协助测试人工智能,然后不断调整综合成绩。“它给了我们在侵略和让步之间找到适当平衡所需的反馈,”说。有效。三个月后,当Miyazono参加GTSophy比赛时,后者的侵略性消失了——但它并没有简单地退缩。“当两辆车并排进入一个角落时,GTSophy会为人类司机留下足够的空间通过,”他说。“这让你觉得自己在和另一个人赛跑。”那种反应,驾驶者得到了别样的激情和乐趣。索尼的工作给我留下了深刻的印象。“我们根据人类能力来衡量机器人技术的进步,”他说。但是,他的同事EliaKaufman指出,人类研究人员仍然主导着GTSophy学习行为的训练。“良好的赛道礼仪是人类教给人工智能的,”他说,“如果这能以自动化的方式完成,那将非常有趣。”这样的机器不仅会有良好的赛道礼仪,更重要的是,最好的事情是为了能够理解什么是竞技场风格,并能够改变其行为以适应新的设置。该团队现在正在将其GT赛车研究应用于现实世界的无人机比赛,使用原始视频而不是模拟数据来训练AI要飞。2022年6月,他们请来了两位无人机世界冠军,和电脑对战。”看到我们的AI比赛,他们的表情已经说明了一切。他们被震惊了,”他说,并认为机器人技术的真正进步必须扩展到现实世界。“模拟与现实世界之间总是存在不匹配,”他说,“当人们谈论时,这一点就会被遗忘“关于人工智能令人难以置信的进步。在战略方面,是的。但就现实世界的部署而言,我们离那还差得很远。”目前,索尼坚持只在游戏中使用该技术。它计划在未来版本的GT游戏中使用GTSophy。“我们希望这成为产品的一部分,”美国执行董事彼得斯通说。索尼是一家娱乐公司,我们希望借此让游戏变得更加有趣。”琼斯认为,一旦人们有机会观看GTSophy的驾驶,整个模拟赛车社区都可以从中学到很多东西。“在很多赛道上,我们会发现多年的驾驶技术是有硬伤的,其实还有更快的方法。”这是可以实现的。“如果基线发生变化,每个人的技能都会提高,”琼斯说。
