机器学习的探索,可以显着提高智能体的学习效率和泛化能力。然而,在实际应用中,机器人的设计往往比其他问题更难,因为机器人需要大量的训练和专业知识才能完成设计。针对这一问题,李飞飞团队与英伟达提出了一种新的技能训练方法——多样化环境中的技能学习(SLIDE),通过一系列自动生成的任务来发现泛化技能。与之前在同一环境中训练不同技能的无监督技能发现工作不同,本文的方法将每种技能与可训练任务生成器生成的独特任务相结合。为了鼓励通用技能的出现,对每个配对任务进行技能训练,并最大限度地提高生成任务的多样性。在生成的任务中定义了任务鉴别器,以估计多样性目标的证据下限。机器人的技能是通过自动生成任务来学习的。每种技能都与任务生成器可训练的独特任务相匹配。这些技能经过培训,专门从事与它们相匹配的任务。通过生成的不同任务发现不同的技能。在我们的方法中发现技能的关键是设计一个目标函数生成器g来训练技能条件任务以创建不同的任务。为了让更多的通用技能能够被学习到,研究人员认为需要同时考虑技能间多样性和技能内多样性,并且在训练任务生成器g时应该适当平衡。跨技能的多样性鼓励每项任务对与之配对的技能提出更独特的挑战。然而,技能内多样性衡量的是每项任务可以提供的背景变化。对于机器人操作任务,开发者肯定希望机器人擅长与特定类型的物体进行不同类型的交互(如推动、抓取、释放等)。同时也希望每个技能都有足够的能力应对场景变化和任务初始的通用性。最后,需要考虑任务的可行性,以防止在无法解决的任务中学习技能。上图显示了SLIDE模型发现的示例任务和技能,通过显示两个相关的采样轨迹显示了技能间和技能内的多样性。每个灰色块具有相同的技能指数。每列显示生成任务的初始化和技能的执行。不同颜色代表不同物品类别的目的地,包括罐头(红色)、盒子(绿色)和餐具(蓝色)。本文实验设计的主要目的是回答以下问题:1)SLIDE可以学习不同的技能吗?2)通过SLIDE学到的技能能否被利用并推广到其他看不见的任务中?3)SLIDE中的设计选项如何影响所学技能和任务绩效?为了学习机器人技能并评估其对未知目标任务的泛化能力,设计了两个桌面操作区域。每个域都定义了一个环境设计和奖励函数,它们共享相同的状态和动作空间但又有所不同。这两个任务空间由用于定义初始化、动态和奖励函数的多个离散和离散变量参数化。通过从参数任务中按程序生成任务来进行首次训练技能发现的方法没有目标任务概念的空间。然后训练一个分层策略,使用从同一领域学到的技能来解决每个看不见的目标任务。研究结果表明,与现有的强化学习和技能学习方法相比,论文提出的方法所学习的技能能够有效提升机器人在各种无目标任务中的表现。这篇文章的主要贡献是提出了一个模型SLIDE,用于通过自动生成一组不同的任务来在不同的环境中学习技能。通过最大化生成任务的多样性,SLIDE方法能够发现各种任务,使技能策略能够激励机器人学习各种行为。通过训练层级结构,将所学技能的强化学习算法作为低层策略,可以有效提高隐藏目标任务在两个桌面操作区域的学习能力和学习效率。在今后的工作中有几个方面可以改进。首先,所提出的方法是专门为学习一定数量的技能而设计的,一个有趣的研究方向是开放式技能发现和任务的灵活技能数量。其次,论文暗示它在目标任务中对目标任务有用,并假设在任务中预定义了参数化奖励函数,但未来的工作可以根据相应任务的内在激励生成奖励函数。最终,希望这项工作能够鼓励更多人努力利用程序内容生成来进行机器人学习和类似应用,并可以为更广泛的应用提出方法,例如视觉导航和人形机器人。文章第一作者方宽是斯坦福大学视觉与学习实验室的博士生,师从SilvioSavarese教授和李飞飞教授,主要研究方向为计算机视觉、机器人学和机器学习。本科毕业于清华大学,曾在谷歌大脑、谷歌X、微软亚洲研究院实习。该论文的第二作者朱宇科是德克萨斯大学奥斯汀分校计算机科学系助理教授、机器人感知与学习实验室主任、NVIDIA研究中心高级研究科学家。主要研究方向是为机器人和能与现实世界进行推理和交互的具身代理构建智能算法。这项研究处于机器人学、计算机视觉和机器学习的交叉点。感知和控制的方法和机制的重点是实现通用机器人的自主性。ThesupervisorofthisthesisisLiFeifei,whowaselectedasamemberoftheNationalAcademyofEngineeringandtheNationalAcademyofMedicinein2020,andwaselectedasamemberoftheAmericanAcademyofArtsandSciencesin2021.Herworkincludes认知启发的AI、机器学习、深度学习、计算机视觉和AI+医疗保健,尤其是用于医疗保健服务的环境智能系统。她还在认知和计算神经科学领域工作。她发明了ImageNet和ImageNet挑战赛,这是一项重要的大规模数据集和基准测试工作
