当前位置: 首页 > 科技赋能

马斯克又来了, OpenAI 想要利用 VR 来训练机器人

时间:2024-05-22 17:14:29 科技赋能

文章 |莉娜智东西讯 5月17日消息,今天,OpenAI公布了一种新算法:“one-shot模仿学习(one-shot imitation Learning)”,当人类在VR中演示一次动作时,机器可以通过学习该动作来执行相同的结果。

行动。

OpenAI 是埃隆·马斯克 (Elon Musk) 在 12 月宣布的一个非营利性人工智能项目。

研究人员将开源并分享大部分研究成果;主要关注强化学习和无监督学习——Google之前著名的围棋程序AlphaGo就采用了强化学习;无监督学习需要机器处理大量未标记的数据,并找到区分不同数据子集、集群或相似图像的方法。

它有点像婴儿学习世界的方式,一直被视为人工智能真正的潜在释放点。

卷积神经网络之父Yann LeCun有一个经典的比喻:如果人工智能是一块蛋糕,那么强化学习(Reinforcement Learning)就是蛋糕上的一颗樱桃,而监督学习(Supervised Learning)则是外面的一层糖霜。

蛋糕的一部分,但无监督学习就是蛋糕本身。

到目前为止我们只知道如何制作糖霜和樱桃,但不知道如何制作蛋糕。

One-shot模仿学习OpenAI宣布的新算法“one-shot模仿学习”是指人类在VR中演示某个动作,例如在桌面上堆叠小蓝色盒子。

对于小红色盒子上的这个动作,机器通过学习这个动作可以执行相同的结果,并且无论盒子放在桌子上的顺序如何,机器都可以准确地执行。

该学习系统由两个神经网络组成:视觉网络和模仿网络。

视觉网络获得的图像来自机器人的摄像头。

此前,这个视觉网络是在数十万张模拟图像上进行训练的,每个图像都有不同的纹理、光影效果等(但从未使用真实图像进行训练);模拟网络必须生成与VR演示动作一致的执行步骤,并推断任务的意图,这样当初始设置改变时(例如当盒子的顺序是重新排列)盒子并将其堆叠在红色盒子的顶部。

目前,学术界和工业界都在寻找使用各种训练机器人的方法。

例如,NVIDIA CEO黄仁勋上周还在GTC大会上宣布了一款名为ISAAC的增强学习世界模拟器,创建了一个完全虚拟的、专门为训练机器人而创建的世界。

这是一个遵循物理定律但不遵循时间定律的世界。

在现实生活中,如果你想训练一台机器学习打冰球,你必须把冰球放在机器前面,一遍又一遍地教它;在虚拟世界中,机器可以在一秒钟内多次重复这样的动作,也可以训练一堆机器同时学习打球,然后找到其中最聪明的一个,复制它的“大脑”程序,并创建一堆相同的机器继续训练和筛选。