当前位置: 首页 > 科技观察

刚出生的机器狗在翻滚一个小时后就可以自己走路了,吴恩达师兄的成就

时间:2023-03-22 15:57:54 科技观察

现在,让机械狗自己打滚一个小时,它就能学会走路了!步态看起来很不错:他还能拿着一根大棍子。就算仰面摔倒,他翻身又重新站起来:从这一点来看,训练机械狗和普通的狗训练真的不一样。没什么不同。这是加州大学伯克利分校带来的最新成果,让机器人可以直接在实际环境中进行训练和学习,不再依赖模拟器。使用这种方法,研究人员在短时间内训练了四个机器人。比如一开始1小时学会走路的机械狗;还有2条机械臂,实战8-10小时后性能接近人类;还有一个具有计算机视觉的小机器人,可以自己探索2小时后,可以丝滑滚动到指定位置。该研究由PieterAbbeel等人提出。PieterAbbeel是吴恩达的第一个博士生,前不久刚刚获得2021年ACM计算奖。目前,该方法的所有软件基础设施都已开源。一种叫做“Visionist”的算法该方法的流水线大致可以分为4个步骤:第一步是将机器人放在真实环境中并收集数据。第二步是将这些数据传输到ReplayBuffer。这一步是利用历史数据进行训练,“总结经验”,高效利用收集到的样本。第三步,WorldModel会借鉴已有的经验,再对策略进行“脑补”。第四步是使用ActorCritic算法来提高策略梯度方法的性能。然后周而复始,将提取出来的方法应用到机器人身上,最终达到一种“自己探索,自己学习”的感觉。具体来说,这里的核心环节是WorldModel。WorldModels是DAVIDHA等人提出的一种快速无监督学习方法。2018年,并获得了NIPS2018的口头报告。其核心思想是人类根据以往的经验形成了一个对世界的心智模型,我们所做的决定和行动都是基于这个内在模型。例如,人在打棒球时,反应速度远快于视觉信息传递到大脑的速度,所以这种情况下之所以能正确回球,是因为大脑已经做出了本能的预测.此前,谷歌基于WorldModel的“脑补”学习方法,提出了Dreamer,一种可扩展的强化学习方法。这次提出的方法就是基于此,叫做DayDreamer。(貌似可以称得上有远见了?)具体来说,WorldModel是一个agent模型。它包括一个视觉感知组件,将看到的图像压缩成一个低维表示向量作为模型输入。还有一个记忆组件可以根据历史信息对未来的表示向量进行预测。最后,它还包括一个决策组件,它可以根据视觉感知组件和决策组件的表示向量来决定采取什么行动。现在,让我们回到加州大学伯克利分校学者提出的方法。不难发现,WorldModelLearning部分的逻辑是一个经验积累的过程,而BehaviorLearning部分是一个动作输出的过程。本文提出的方法主要解决机器人训练中的两个问题:效率和准确性。一般来说,训练机器人的传统方法是强化学习,它涉及通过反复试验调整机器人的行为。但是,这种方法往往需要非常大量的测试才能取得好的结果。不仅效率低,训练成本也不低。后来很多人提出,在模拟器中训练机器人可以提高效率,降低成本。不过,本文作者认为,模拟器训练方法在准确率方面的表现还不够好,只有真实环境才能让机器人达到最好的效果。从结果来看,在训练机器狗的过程中,机器狗只用了10分钟就适应了自己的行为。与SAC方法相比,效果明显提升。在机械臂训练期间,新方法还克服了视觉定位和稀疏奖励的挑战,在几个小时的训练中显着优于其他方法。研究团队值得一提的是,此次带来新成果的研究团队成员也十分亮眼。其中,PieterAbbeel是吴恩达的开山弟子。他现在是加州大学伯克利分校电气工程和计算机科学教授,伯克利机器人学习实验室主任,伯克利人工智能研究所联合主任,并已加入OpenAI。不久前,他还获得了2021年ACM计算奖,以表彰他对机器人学习的贡献。同时,他还是AI机器人公司Covariant的联合创始人。另一位KenGoldberg也是AI领域的顶级专家。他现在是加州大学伯克利分校的工程学教授,他的研究兴趣包括强化学习和人机交互。In2005,hewaselectedasafellowofIEEE.同时,戈德堡还是一位艺术家,也是加州大学伯克利分校艺术、科技和文化研讨会的创始人。此外,PhilippWu、AlejandroEscontrela和DanijarHafner是共同作者。其中,PhilippWu只是加州大学伯克利分校的一名大四学生。还有一点在观看机器狗训练视频时,我们发现研究人员使用的是Unitree机械狗。这个品牌来自于中国企业玉树科技,之前登上春晚的机器人小牛也出自其家。而且,近日曝光的玉树机器狗集体进行Go1测试的视频在国外走红。论文地址:https://danijar.com/project/daydreamer/