强化学习专家SergeyLevine的新作:三个大模型教机器人认路SergeyLevine的新作。给定一个目的地,没有导航轨迹到达那里有多难?对于方向感较差的人类来说,这项任务也非常具有挑战性。但在最近的一项研究中,几位学者只用三个预训练模型“教”了机器人。众所周知,机器人学习的核心挑战之一是让机器人能够按照人类指令执行各种任务。这就需要机器人能够理解人类的命令,并配备大量不同的动作,以便在现实世界中执行这些命令。对于导航中的指令跟随任务,以前的工作主要集中在从用文本指令注释的轨迹中学习。这可能有助于理解文本指令,但数据注释的成本阻碍了该技术的广泛使用。另一方面,最近的工作表明目标条件策略的自我监督训练可以学习鲁棒导航。这些方法通过事后在大型未标记数据集上重新标记来训练基于视觉的控制器。这些方法具有可扩展性、通用性和鲁棒性,但通常需要使用繁琐的基于位置或图像的对象规范机制。在一篇新论文中,来自加州大学伯克利分校、谷歌等机构的研究人员旨在结合这两种方法的优势,使机器人导航的自监督系统可以应用于无需任何用户注释的导航数据,使用预先经过训练的模型能够执行自然语言命令。研究人员使用这些模型构建一个“接口”,将任务传达给机器人。该系统利用预训练语言和视觉语言模型的泛化能力,使机器人系统能够接受复杂的高级指令。论文链接:https://arxiv.org/pdf/2207.04429.pdf代码链接:https://github.com/blazejosinski/lm_nav研究人员观察到可以使用现成的预训练模型(这些语料库是广泛可用的,并且已经显示出零样本泛化能力)来创建用于特定指令跟踪的接口。为实现这一目标,研究人员结合了与机器人无关的预训练视觉和语言模型以及预训练导航模型的优势。具体来说,他们使用视觉导航模型(VNM:ViNG)将机器人的视觉结果创建为环境的拓扑“心理地图”。给定一个自由格式的文本指令,使用预训练的大型语言模型(LLM:GPT-3)将指令解码为一系列文本形式的特征点。然后,通过推断特征点和节点的联合似然概率,使用视觉语言模型(VLM:CLIP)在拓扑图中构建这些文本特征点。然后使用一种新颖的搜索算法来最大化概率目标函数并找到机器人的指令路径,然后由VNM执行。该研究的主要贡献在于大型模型下的导航方法(LMNav),一种特定的指令跟踪系统。它结合了三个大型的独立预训练模型——一个使用视觉观察和物理动作的自监督机器人控制模型(VNM),一个将图像放置在文本中但没有具体实现环境的视觉语言模型(VLM),以及一个大型的可以解析和翻译文本但没有视觉基础或体现感(LLM)的语言模型,无法在复杂的现实环境中进行长期指令跟踪。研究人员首次实例化了将预训练视觉和语言模型与目标条件控制器相结合的想法,以推导出可操作的指令路径,而无需在目标环境中进行任何微调。值得注意的是,这三个模型都是在具有自监督目标函数的大规模数据集上训练的,并且开箱即用,无需微调——训练LMNav不需要机器人导航数据的人工注释。实验表明,LMNav能够在新颖的环境中成功遵循自然语言指令,同时在100米复杂的郊区导航中使用细粒度命令消除路径歧义。LM-Nav模型概述那么,研究人员如何使用预训练的图像和语言模型为视觉导航模型提供文本界面?1.给定目标环境中的一组观察值,使用视觉导航模型(VNM)的一部分目标条件距离函数来推断它们之间的连通性,并构建环境中连通性的拓扑图。2.大语言模型(LLM)用于将自然语言指令解析为一系列特征点,可以作为导航的中间子目标。3.视觉语言模型(VLM)用于基于特征点短语构建视觉观察。视觉语言模型推断特征点描述和图像(形成上图中的节点)的联合概率分布。4.使用VLM的概率分布和VNM推断的图连通性,使用一种新颖的搜索算法来检索环境中的最佳指令路径,该路径(i)满足原始指令且(ii)是图的最短路径实现目标。5.然后,该指令路径由作为VNM一部分的目标条件策略执行。实验结果的定性评价图4展示了机器人所走路径的一些例子(注意机器人无法获得俯视图像和特征点的空间定位,展示的只是视觉效果)。在图4(a)中,LM-Nav能够从之前的遍历中成功定位简单的特征点,并找到到达目标的短路径。虽然环境中有多个停车特征点,但方程3中的目标函数使机器人在上下文中选择正确的停车特征点,从而使整体行驶距离最小化。图4(b)突出显示了LM-Nav解决具有多个特征点的指定路径的能力——即使直接到最后一个特征点的最短路线是最短路线,而不管指令路径如何,机器人仍然找到一条具有正确的一条路径,依次访问所有的特征点。使用指令来消除歧义。由于LMNav的目标是遵循指令,而不仅仅是达到最终目标,因此不同的指令可能会导致不同的遍历。图5显示了一个示例,其中修改指令可以消除目标的多条路径的歧义。对于较短的提示(蓝色),LMNav更喜欢更直接的路径。当指定更细粒度的路线(洋红色)时,LMNav通过一组不同的特征点采用替代路线。缺失特征点的情况。尽管LM-Nav能够有效地解析指令中的特征点,将它们定位在图形上,并找到通往目标的路径,但这个过程依赖于特征点(i)存在于真实环境中,并且(ii)被VLM认可。图4(c)显示了一种情况,其中可执行路径未能访问其中一个特征点——一个消防栓——并采取了绕过建筑物顶部而不是底部的路径。这个失败案例是由于VLM无法从机器人的观察中发现消防栓。在独立评估VLM在检索特征点方面的功效时,研究人员发现,尽管它是此类任务的最佳现成模型,但CLIP无法检索少量“硬”特征点,包括火消防栓和水泥搅拌机。但在很多实际情况下,机器人仍然能够成功找到一条路径访问其余的特征点。定量评估表1总结了系统在20条指令上的定量性能。在85%的实验中,LM-Nav能够始终如一地遵循指令而不会崩溃或脱离(平均每行驶6.4公里进行一次干预)。与没有导航模型的基线相比,LM-Nav在执行高效、无碰撞的目标路径方面始终表现更好。在所有不成功的实验中,失败都可能归因于规划阶段的能力不足——搜索算法无法直观地定位图中某些“硬”特征点——导致指令执行不完整。对这些故障模式的调查表明,系统最关键的部分是VLM检测不熟悉的特征点(例如消防栓)和具有挑战性的照明条件下的场景(例如曝光不足的图像)的能力。
