本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。这只机械臂正在完成伸、拿、移、推、指、开6个动作。而且动作娴熟,丝毫没有失误。更令人惊喜的是,训练机械臂只用了25分钟。即使有人为干预,它也能顺利完成抓取动作。它还可以掌握以前从未见过的物体的形状。这是加州大学伯克利分校的一项新研究——FrameworkforEfficientRoboticManipulation(FERM),一种高效的机器操作框架,专门针对机械臂高效操作的算法训练。为什么FERM比其他方法更有效?目前,大多数用于机器人训练的RL算法都不是很有效。用稀疏奖励的方法训练Dota5游戏的人机操作,需要180年的游戏时间,才能达到人类玩家的水平。训练机械臂的手势需要数千万个模拟学习样本和两周的训练时间。Sim2Real和模拟学习这两种方法稍微好一些。Sim2Real需要接受模拟训练,然后将训练结果应用到真实案例中。模拟学习需要一系列的专业训练示范案例和监督学习来获得最终的训练策略。实验结果非常依赖于输入演示案例的质量。FERM的优点是不依赖模拟训练到现实的转换,也不高度依赖输入的演示案例的质量。相反,基于无监督表示学习和数据扩展技术使用基于像素的RL。因此,只需要10个demo和25分钟的训练时间,就可以让机器人学会6个动作。FERM具体是怎么训练的?FERM使用基于像素的强化学习(pixel-basedRL)方法。具体来说,首先收集一小部分演示数据并存储在“播放缓冲区”中。然后使用观察结果结合对比损失对编码器进行预训练。然后,编码器和“重放缓冲区”使用离线数据来增强RL算法并训练RL代理。在论文中,研究人员总结了FERM的主要优势:1.高效率:FERM可以学习针对6种不同操作任务的最优策略,并在15-50分钟的训练时间内完成每项任务。2.简单统一的框架:该框架结合现有组件,将无监督预训练和带数据的在线强化学习扩展到一个单一高效的框架中。3.常规轻量级设置:实现只需要一个机器人、一个GPU、两个摄像头、几个demo、稀疏奖励函数等,具体实验结果如何?实验结果本实验使用像素观察的方法执行了一系列任务。下图中的每一列显示了三种状态:初始、中间和结果。只有当机器人完成任务时才会给予稀疏奖励。这种训练算法的效率可以用非常高来形容。具体完成时间见下表。大约30分钟,就可以让机器人学会操作任务。简单的“Reach”动作只需要三分钟。根据实验结果,不需要很多demo,也不需要很多设备。第一次完成任务的平均时间为11分钟,25分钟可以训练出6个机械动作。因此研究人员自豪地说:“据我们所知,FERM是第一个能够在不到一个小时的时间内直接完成来自不同群体的机器操作任务,并通过像素使用稀疏奖励方法的机器操作任务。”据相关报道,未来十年,制造业将需要460万个就业岗位。很多厂家也开始转向自动化生产,机械自动化占比会越来越大。像FERM这样的高效培训框架对制造业来说是一个福音。
