12月27日,MetaAI负责视觉领域和强化学习领域的A。截至27日晚间,这条推文阅读量已达7.39万。他表明,只需5个演示,MoDem就可以在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。它有多好?他们发现,在低数据条件下,MoDem在完成具有稀疏奖励的任务方面比以前的方法成功率高150%-250%。LeCun也转发了这项研究,称MoDem的模型架构类似于JEPA,无需解码器即可在表示空间中进行预测。链接编辑放在下面,感兴趣的朋友可以看看~论文链接:https://arxiv.org/abs/2212.05698Github链接:https://github.com/facebookresearch/modemresearchinnovationandmodelArchitecturalsampleinefficiency为现实世界的应用部署深度强化学习(RL)算法是一项重大挑战,尤其是视觉运动控制。基于模型的强化学习有可能通过同时学习世界模型和使用合成部署来进行规划和政策改进来实现高样本效率。然而,在实践中,基于模型的RL的样本高效学习受到探索挑战的瓶颈,本研究解决了这些主要挑战。首先,MoDem通过使用世界模型、模仿+RL和自监督视觉预训练解决了视觉强化学习/控制领域的三大挑战,分别是:大样本复杂度、高维状态和动作空间探索(Explorationinhigh-dimensionalstateandactionspace)Simultaneouslearningofvisualrepresentationsandbehaviors(视觉表征和行为的同步学习)这次的模型架构类似于YannLeCun的JEPA,不需要解码器。作者AravindRajeswaran表示,相比Dreamer的需要像素级预测的解码器,架构较重,无解码器架构可以支持直接插入使用SSL预训练的视觉表示。此外,他们基于IL+RL提出了一个三阶段算法:BC预训练策略使用包含演示和探索的种子数据集预训练世界模型,这个阶段对于整体稳定性和效率微调很重要世界模型通过在线交互结果展示,生成的算法在21个硬视觉运动控制任务中取得了SOTA结果(State-Of-The-Artresult),包括Adroit灵巧操纵、MetaWorld和DeepMind控制套件。从数据上看,MoDem在各项任务上的表现都远好于其他模型,结果比之前的SOTA方法高出150%到250%。红线是MoDem在各种任务上的表现。在此过程中,他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。最后,使用冻结的R3M功能远优于直接E2E方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。但八月数据强劲的E2E与冻结的R3M竞争,我们可以通过预训练做得更好。
