编辑|伟宏介绍:OpenAI智能机械臂发布,50小时可收集多年经验 当你还是个婴儿的时候,学会用手抓东西是你做的第一件事,但这绝不是一件简单的事情,它只会成为随着你的成长,会变得更加复杂和多样。
这种复杂性使得机器很难自学,但埃隆·马斯克和萨姆·奥尔特曼创立的 OpenAI 公司的研究人员创建了一个系统,不仅可以像人类一样握住和操纵物体,还可以开发自己的行为。
许多机器人和机械手已经掌握了某些抓取动作——工厂里的机器人可以比人类更灵活地操作螺栓枪。
但让机器人完成这项任务的程序是由人类编写的,并且只适合特定的工作。
例如,你不能给工厂机器人一支铅笔并要求它完成书写工作。
即使在同一条生产线上,不同的作业也需要不同的软件支持。
然而,对于一个人来说,拿起一个苹果和拿起一个杯子并没有什么区别。
差异确实存在,但我们的大脑会自动处理差异信息。
例如,我们可以即兴创作并安全地握住一个不熟悉的物体。
在这一点上,机器人远远不如人类。
此外,你不能只训练机器人做一项工作,你必须提供数百万个例子来充分展示人类的工作技能。
OpenAI 的研究人员认为该解决方案根本不使用人类数据。
相反,让机器人的计算机通过模拟中的反复试验慢慢学习如何移动手指,以便它控制的物体按照需要移动。
这个系统被他们称为 Dactyl,仅提供机器人手指的位置和三个手持物体的视角,并且在训练过程中,所有数据都在虚拟环境中进行模拟。
在虚拟环境中,计算机不需要实时工作。
在几秒钟内,它可以尝试数千种不同的方式来抓取目标物体,分析结果并将数据反馈给下一次尝试。
Dactyl 使用与 OpenAI 5 相同的通用强化学习算法和代码从头开始学习。
结果表明,在模拟环境中训练机器人来解决现实世界的任务是完全可行的。
除了学习抓取不同的物体和姿势之外,还有很多随机参数,比如指尖的摩擦力、场景的颜色和灯光等等。
它还不是对现实的完全模拟,但它确实确保您的系统不仅仅在专门标记的蓝色实验室中工作。
研究团队在这个问题上投入了大量的精力:1个CPU和8个GPU,在50个小时内收集了大约50年的经验。
然后,他们首次将该系统应用于现实世界,并且在第一次使用时它表现出了一些令人惊讶的类似人类的行为。
人类无意的行为,例如翻转苹果检查是否有瘀伤或将一杯咖啡递给朋友,涉及许多微妙的技巧来稳定手中的物体。
Dactyl 已经重建了几种,例如使用拇指和中指将物体固定到位,然后使用剩余的手指将物体转向所需的方向。
该系统的伟大之处在于其运动的自然性,以及它是通过机器上的反复试验独立完成的,与任何特定的形状或物体类型无关。
就像人类一样,它可以控制和操纵你放在它手中的任何东西,这是正确的。
这种灵活性被称为心灵感应泛化,对于必须与现实世界互动的机器人来说至关重要。
对现实中的所有场景和物体进行手工编码是不可能的,但机器人可以依靠对系统的核心理解来适应和填补这些空白。
这项技术使得OpenAI的机器人能够像人类一样,拥有自主学习的能力,面对各种未知的环境,进化出适当的行为模式。
总的来说,OpenAI提出的“将仿真环境的结果应用到现实世界”的建议将是开发通用机器人的有效解决方案之一。