这个赛车AI不再只顾眼前,而是学会了考虑长期战略玩赛车游戏的AI现在不仅仅是图片。他们开始考虑战术规划,甚至有了自己的驾驶风格和“局部”项目。比如这个只擅长转弯的“偏”玩家,我面对急转弯重拳出击,漂移惊险,面对直线,我顺从摇摆不停:还有一个AI眼光长远,战术规划有学问,也就是这两辆正在竞速的绿色赛车,在转弯的时候看似减速了,但是却能够顺利通过急转弯,避开了直接GG的终点。还有一个人工智能可以从一个实例中得出推论并运行整个课程,无论地图有多新。看来你真的是在赛道上学会了思考。(即便是上面提到的偏科选手,经过不懈努力,也成功逆袭。)本次训练结果一经公布,便引来大量网友围观:强化学习,让AI学会“长远思考”。训练曲目来自一款名为《赛道狂飙》(Trackmania)的游戏,以其深度可定制的曲目编辑器而闻名于玩家。为了更大限度的激发赛车AI的潜能,开发者做出了这样一张九弯十八弯的恶魔地图:开发者叫yoshtm,之前用AI玩过这款游戏,引起热议:at一开始,yoshtm使用了一个有2个隐藏层的监督学习模型。该模型包含16个输入,包括汽车当前的速度、加速度、道路位置等,然后通过神经网络对输入参数进行分析,最终输出6个动作中的一个:基于这个模型架构,开发者允许多个OnlyAI在同一张地图上竞争。通过多次迭代,不同AI的神经网络会略有不同,最终会出现最好的AI。这种方式确实可以让AI学会开车,但也带来了一个问题:AI往往只能通过速度或最终过马路时间等单一指标来评价自己,很难走得更远。这一次,时隔两年,赛车AI不仅学会了从长远角度制定策略(比如在急转弯时调整速度),而且对新地图的适应能力也大大提升。主要原因来自开发者这次推出的新方法,强化学习。该方法的核心概念是“奖励”,即通过选择带来更多奖励的行为来不断优化最终效果。在赛车游戏中训练AI时,yoshtm定义的奖励非常常规:速度越快,奖励越多,走错路或掉出赛道的惩罚。但问题是有些动作,比如在接近转弯时加速,可能会带来短期的积极回报,但从长远来看可能会产生负面后果。因此yoshtm采用了一种叫做DeepQLearning的方法。这是一种无模型强化学习技术,对于给定状态,无需环境模型即可比较可用操作的预期效用。DeepQLearning将通过对深度网络参数的学习,不断提高Q值预测的准确率,也就是说,它可以让AI预测赛车游戏中每个可能动作的预期累积奖励,从而“长术语战略愿景”。随机出生点帮助AI纠正“偏见”,然后开始正式训练。yoshtm的想法是,AI首先会通过随机探索的方式收集尽可能多的地图数据,他称之为行为探索。探索的比例越高,随机性越强,随着比例的降低,AI会更加专注于赢得上面设定的奖励,也就是专注于跑图。然而,在训练近3万次,探索比例降低到5%后,AI“卡壳”了:核心问题是AI出现了“偏向”。由于前期跑图多条曲线,AI出现过拟合现象。面对长直道的新型赛道,车身摇摆不定,最终甚至选择了“自杀”。:如何解决这个问题呢?yoshtm没有重新制作地图,而是选择修改AI的出生点:每次训练开始时,AI的起点都会在地图上的随机位置生成,速度和方向也是随机的。《赛车狂飙》本来就是一个需要大量训练的游戏,当然AI也是一样的。至少我现在很确定这个AI可以击败很多初学者。这种做法立马见效了,AI终于开始可以跑完一条完整的赛道了。下一步是持续训练。最终,开发者yoshtm与AI进行了较量,AI这次跑出了最好成绩:6分20秒。虽然还是不如真人操控的赛车快,但AI已经表现出了很强的场地适应性,无论是草地还是泥地,都能立即举一反三。yoshtm最后说:《赛车狂飙》是一款需要大量训练的游戏,AI当然也一样。至少我现在很确定这个AI可以击败很多初学者。
