当前位置: 首页 > 科技观察

震惊!经过70,000小时的训练,OpenAI的模型学会了在《我的世界》中刨木头

时间:2023-03-19 13:22:08 科技观察

最近,似乎把GPT甩在身后的OpenAI又开始了新的工作。在对大量未标记视频和少量标记数据进行训练后,AI终于学会了在Minecraft中制作钻石镐。整个过程需要硬核玩家至少20分钟才能完成,总共需要24000次操作。这个东西看似简单,但是对于AI来说就非常难了。一个7岁的孩子10分钟就能学会最简单的木镐。人类玩家从头开始学习这个过程并不太困难。一个死宅可以在不到3分钟的时间内用一个视频教下一个死宅。演示视频时长2分52秒。然而,金刚石镐的制作要复杂得多。但即便如此,一个7岁的孩子只需要看十分钟的演示视频就可以学会了。这个任务的难点主要是如何挖掘钻石矿。流程大致可以概括为12个步骤:首先徒手规划像素方块“木头”,然后用原木合成木块,用木块制作木棍,制作木棍车间设备台,工作台制作木镐,以及木镐敲石头块,石头和棍子制作石镐,石镐建造熔炉,熔炉加工铁矿石,铁矿石铸铁锭,铁锭制作铁镐,铁镐开采钻石。现在,压力在人工智能方面。巧合的是,CMU、OpenAI、DeepMind、微软研究院等机构从2019年开始就发起了相关的竞赛——MineRL。参赛者需要开发一种“从头开始自主构建工具,自动寻找并开采钻石矿”的人工智能,以及获胜条件非常简单-最快的获胜者。结果如何?第一届MineRL比赛结束后,“一个7岁的孩子看10分钟的视频就能学会,但AI走800万步就搞不定”,却发表在了《自然》杂志上。虽然有很多数据,但我不能使用它。作为一款沙盒建造游戏,《我的世界》因其玩家策略和游戏中虚拟环境的高度开放性,特别适合作为各种AI模型学习和决策能力的试验场和试金石。.而且作为一款“国民级”游戏,在网络上很容易找到与《我的世界》相关的视频。但是,无论是搭建教程还是炫耀自己的作品,某种程度上都只是呈现在屏幕上的结果。也就是说,看视频的人只能知道upmain做了什么,是怎么做到的,而不能知道它是怎么做到的。更具体地说,电脑屏幕上显示的只是结果,操作步骤是up主在键盘上的连续点击和鼠标的连续移动。这部分是看不见的。连这个过程都经过剪辑,人看了估计都学不会,更别说AI了。更糟糕的是,很多玩家抱怨游戏中刨木头很无聊,太像做作业来完成任务了。结果一波更新下来,有很多工具可以白捡……现在,连资料都不好找了。如果OpenAI想让AI学会玩《我的世界》,就必须想办法让这些海量的无标签视频数据派上用场。视频预训练模型——VPT于是,VPT应运而生。论文地址:https://cdn.openai.com/vpt/Paper.pdf这个东西很新很新,但是并不复杂。它是一种半监督模仿学习方法。首先收集一波外包商玩游戏的数据标注,包括视频和键鼠操作记录。VPT方法概述然后,研究人员使用这些数据创建了一个逆向动力学模型(inversedynamicsmodel,IDM),该模型可以推断出执行视频中的每一步时键盘和鼠标如何移动。这样,整个任务就变得简单多了,只需要比以前少得多的数据就可以实现目标。在使用少量外包数据完成IDM后,IDM可用于标记更大的未标记数据集。基础模型训练数据对微调的影响经过7万小时的训练,OpenAI的行为克隆模型可以完成其他模型无法完成的各种任务。该模型学会了如何砍伐树木来收集木材,如何用木头制作木棍,以及如何用木棍制作桌子。而这套东西需要技术比较熟练的玩家才能操作不到50秒。除了作为桌子,该模型还可以游泳、打猎和进食。甚至还有“跑跳搭楼”的表演操作,即起飞时,脚下垫一块砖块或木块,一蹦一跳就能搭起一根柱子。这是硬核玩家的必修课。制作表格(0shot)打猎(0shot)粗略版的“跑跳”(0shot)为了让模型完成一些更精细的任务,一般会把数据集微调到更小的规模,区分小方向。OpenAI做了一项研究,展示了使用VPT训练的模型在微调后对下游数据集的适应能力如何。研究人员邀请人们玩《我的世界》10分钟,并用基本材料建造了一座房子。他们希望通过这种方式,能够增强模型执行一些早期游戏任务的能力,比如搭建工作台。在对数据集进行微调后,研究人员不仅发现该模型在执行初始任务时更加得心应手,而且还发现该模型自己弄清楚了如何制作木制工作台和石制工具。塔。偶尔,研究人员还可以看到模型自己建造简陋的避难所、搜索村庄和抢劫箱子。制作石镐的全过程(下面标注的时间是熟练玩家完成同一任务所花费的时间)制作石镐的全过程,接下来我们就来看看OpenAI的专家们是如何微调的。他们使用的方法是强化学习(RL)。大多数RL方法通过随机探索先验来解决这些挑战,例如模型通常被激励通过熵奖励随机行动。VPT模型应该是RL更好的先验模型,因为模拟人类行为可能比采取随机行动更有帮助。研究人员将模型设置为收集钻石镐的艰巨任务,这是Minecraft中前所未有的功能,因为使用本地人机界面执行整个任务会变得更加困难。制作钻石镐需要一系列漫长而复杂的子任务。为了使这项任务易于处理,研究人员奖励序列中每个项目的代理。他们发现,通过随机初始化(标准RL方法)训练的RL策略几乎没有任何奖励,从不学习收集日志,也很少收集木棍。与之形成鲜明对比的是,VPT模型的微调不仅学会了如何制作钻石镐,而且在收集所有物品方面也取得了人类水平的成功。这是第一次有人展示了能够在Minecraft中制作钻石工具的计算机模型。