AI看了7万小时的《我的世界》视频。能达到什么水平?以“钻石镐”为例。高级人类玩家需要快速点击20分钟,做出大约24000个动作才能完成这个东西。而现在的AI可以轻松hold住。狂狂找到各种材料,一步步合成:这就是MineDojo,来自OpenAI的最强《我的世界》AI。它也是世界上第一个能够制造“钻石工具”的人工智能。不仅如此,搭建“石镐”、“简易避难所”都不是问题:当然,《我的世界》中的其他日常操作,MineDojo也能轻松搞定。比如游泳、打猎、跳柱子等:至于OpenAI为什么要让AI学习这些技能,研究员BowenBaker说:很大程度上是因为我们在上网时模拟人类的行为。MineDojo是如何制作的?刚才我们说了,MineDojo的“制作方法”就是看视频。这些视频由人类玩家发布在Youtube上,展示他们如何玩《我的世界》。然后在观看了70,000小时的视频后,AI学会了如何在游戏中执行各种任务。这种方法一般称为模仿学习,即通过观察人类行为来训练神经网络进行学习。虽然此前已有很多相关研究,但仍有一些问题有待解决。“贴标签”就是其中之一。传统的方式是给每一个动作贴上标签:做这个做这个,做那个就会发生。但这种方法可想而知的后果是工作量太大,导致可用于训练的数据变少。因此,OpenAI的研究人员另辟蹊径,想出了一个不同的研究思路——视频预训练(VideoPre-Training,VPT):该方法的核心思想是训练另一个神经网络来处理繁琐的“标注””工作。为此,研究人员首先招募了一组玩家,让他们先玩《我的世界》。当然,在娱乐的同时,他们也记录了键盘和鼠标的点击次数。这样,??研究人员首先获得了一些带有2000小时标记的数据。从那里开始,他们开始训练一个模型,将键盘和鼠标操作与屏幕上的结果相匹配——例如,当单击鼠标时,游戏中的角色会挥动斧头。训练完这个模型后,有必要引入70,000小时的无标签视频;在它的加持下,一个庞大且可用的数据集诞生了。虽然模仿学习可以说是强化学习的一个分支,但OpenAI的研究人员发现,经过VPT训练的AI可以完成仅靠强化学习无法完成的任务。就像制作木板并将它们变成桌子(大约970个连续动作)。不仅如此,研究人员还发现,如果将模仿学习和强化学习结合起来,效果是最好的。OpenAI研究人员进一步扩展了《我的世界》的这项研究,还表示:我们的AI还可以执行其他任务,例如使用鼠标浏览网站、预订航班或在线购物。《我的世界》已成为人工智能技术的试验田。事实上,OpenAI研究的重头戏,除去VPT方法本身,其研究的两大要素《我的世界》和视频也成为了热议的焦点。《我的世界》这款游戏的一大特点就是开放性。玩家可以在这个虚拟世界中做出许多意想不到的杰作。不同于以往通过强化学习训练AI的游戏环境,大多以“输赢”结束,但往往后期AI被训练的能力可能会超过这个“极限”。但是《我的世界》没有所谓的“输赢”。AI可以在这里尽情发挥。因此,OpenAI的研究人员表示:《我的世界》是训练AI的一个很好的实验田。而这也得到了NeurIPS的认可——MineDojo在今年的顶级会议上获奖。至于本次研究的第二个热点“视频”,正如索尼执行董事彼得·斯通所说:视频是一种具有巨大潜力的培训资源。但似乎OpenAI的研究人员对这次的结果并不满意。他们相信收集100万小时的《我的世界》视频将使他们的AI变得更好。当然,这项研究也引起了很多网友的关注,出现了一些有趣的讨论:人们希望AI有意识,但他们意识到需要被迫观看这么长的视频,这已经够累的了。论文地址:https://openai.com/blog/vpt/参考链接:[1]https://www.reddit.com/r/technology/comments/z58fmi/a_bot_that_watched_70000_hours_of_minecraft_could/[2]https://www.youtube.com/watch?v=Z2FsxrRmDPQ[3]https://www.youtube.com/watch?v=fJn9B64Znrk
