近年来,机器人领域出现了很多有趣的发展,比如机器狗会跳舞、踢足球、双足机器人等可以移动东西。通常,这些机器人依赖于根据感官输入生成控制策略。尽管这种方法避免了开发状态估计模块、建模对象属性和调整控制器增益的挑战,但它需要大量的领域专业知识。即使有了这些进步,学习瓶颈也使机器人难以执行任意任务并实现通用目标。要理解机器人学习的关键,一个核心问题是:我们如何为机器人收集训练数据?一种方法是通过自我监督的数据收集策略来收集有关机器人的数据。虽然这种方法相对稳健,即使对于相对简单的操作任务也是如此,但它通常需要来自数千小时的现实世界交互的大量数据。另一种是在模拟数据上进行训练,然后迁移到真实机器人(Sim2Real)。这使机器人能够更快地学习复杂的机器人行为。但是,设置模拟机器人环境和指定模拟器参数通常需要广泛的领域专业知识。实际上还有第三种方法可以做到这一点。收集训练数据也可以请人类老师提供示范,然后训练机器人快速模仿人类示范。这种模仿方法最近在各种具有挑战性的操作问题中显示出巨大的潜力。然而,这些工作中的大多数都有一个基本的局限性——为机器人收集高质量的演示数据很困难。基于以上问题,来自纽约大学和MetaAI的研究人员提出了HOLO-DEX,一种用于收集演示数据和训练灵巧机器人的新框架。它使用Quest2等VR耳机将人类教师置于身临其境的虚拟世界中。在这个虚拟世界中,教师可以通过机器人的眼睛看到机器人“看到”的东西,并通过内置的姿态检测器控制Allegro机械手。看起来就像人“手拉手”教机器人做动作:HOLODEX让人类通过低延迟的观察反馈系统无缝地为机器人提供高质量的演示数据。它具有以下三个优点:与自监督数据收集方法相比,HOLODEX基于强大的模仿学习技术,无需奖励机制即可快速训练;与Sim2Real方法相比,学习到的策略可以直接在真实机器人上执行,因为它们是在真实数据上训练的;与其他模仿方法相比,HOLODEX显着降低了对领域专业知识的要求,只需要人来操作VR设备。论文链接:https://arxiv.org/pdf/2210.06463.pdf项目链接:https://holo-dex.github.io/代码链接:https://github.com/SridharPandian/Holo-Dex为了为了评估HOLO-DEX的性能,该研究对六项灵巧操作任务进行了实验,包括拿着物体、用一只手拧开瓶盖等。研究发现,人类教师在单图像遥操作(teleoperation)上的执行速度比之前的工作快1.8倍)使用HOLO-DEX。在4/6的任务上,HOLO-DEX学习策略的成功率超过90%。此外,该研究发现,通过HOLO-DEX学习的灵巧策略可以推广到新的、看不见的目标对象。总体而言,本研究的贡献包括:为人类教师提供了一种借助VR耳机在混合现实中实现高质量远程操作的方法;实验表明,HOLO-DEX收集的演示可用于训练有效和一般的灵巧操作行为;该研究还对所提出方法中的各种决策进行了分析和消融实验,以验证每个关键设计的效用。此外,HOLO-DEX相关的混合现实API、研究收集的demo、训练代码均已开源:https://holo-dex.github.io/HOLO-DEX架构概览如下图1所示,HOLO-DEX分两个阶段运行。在第一阶段,人类教师使用虚拟现实(VR)耳机向机器人进行演示。这个阶段包括创建一个用于教学的虚拟世界,估计教师的手部姿势,将教师的手部姿势重新定位到机械手,最后控制机器人的手。在第一阶段收集了一些演示后,HOLO-DEX的第二阶段学习视觉策略来解决演示任务。该研究将人类教师置于虚拟世界中,使用分辨率为1832×1920、刷新率为72Hz的MetaQuest2VR耳机。售价399美元的基本版耳机重量为503克,相对较轻,让教师在演示期间使用起来更轻松、更舒适。更重要的是,Quest2的API接口允许创建自定义混合现实世界,在VR中将机器人系统与诊断面板一起可视化。使用VR耳机估计手势与以前的灵巧远程操作工作相比,人类教师使用VR耳机进行手势估计具有三个好处。首先,由于Quest2使用4个单色摄像头,其手势估计器比单摄像头估计器强大得多。其次,由于相机是内部校准的,因此它们不需要以前的多相机远程操作框架所需的专门校准程序。第三,由于手部姿势估计器集成到设备中,它能够以72Hz的频率传输实时姿势。此前的研究指出,灵巧遥操作的一个主要挑战是获取高精度和高频率的手势,HOLO-DEX通过使用商用级VR头显显着简化了这个问题。HandPoseRedirection在下一步中,需要将教师从VR中提取的手部姿势重定向到机器人手上。这首先要计算出老师手上各个关节的角度,然后一个直接的重定向方法就是“命令”机器人的关节移动到相应的角度。这种方法适用于本研究中除拇指外的所有手指,但Allegro机器人手的形状与人类并不完全匹配,拇指不能完全适应这种方法。为了解决这个问题,本研究将教师拇指的空间坐标映射到机器人的拇指,然后通过逆运动学求解器计算拇指的关节角度。需要注意的是,由于Allegro机械手没有小指,因此该研究也忽略了教师小指的角度。整个姿势重定向过程不需要任何校准或教师特定调整来收集演示。但研究发现,可以通过找到从教师拇指到机器人拇指的特定映射来改进拇指重定向。整个过程的计算成本很低,并且可以以60Hz的频率传输机械手的所需姿势。机械手控制AllegroHand通过ROS通信框架异步控制。给定重定向器计算的机器人手关节位置,本研究使用PD控制器以300Hz输出所需的扭矩。为了减小稳态误差,本研究采用重力补偿模块计算偏移力矩。在延迟测试中,研究发现当VR耳机与机械手位于同一本地网络时,可以实现低于100毫秒的延迟。低延迟和低错误率对于HOLO-DEX至关重要,因为这允许人类教师对机器人手进行直观的远程操作。当人类老师控制机械手时,他们可以实时(60Hz)看到机器人的变化。这允许教师纠正机械臂所犯的执行错误。在教学过程中,研究以5Hz的频率记录了三个RGBD相机的观测数据和机器人的动作信息。由于记录多个摄像机所需的大量数据占用空间和相关带宽,该研究不得不降低记录频率。使用HOLO-DEX数据进行模仿学习收集完数据后,进入第二阶段。HOLO-DEX需要在数据上训练视觉策略。该研究采用最近邻模仿(INN)算法进行学习。在之前的工作中,INN被证明可以在Allegro的手上生成基于状态的灵巧策略。HOLO-DEX更进了一步,证明了这些视觉策略可以推广到各种灵巧操作任务中的新对象。为了选择一种学习算法来获得低维嵌入,本研究尝试了几种最先进的自监督学习算法,发现BYOL提供了最好的最近邻结果,因此选择BYOL作为基本的自监督学习算法。监督学习方法。下表1中的实验结果表明,HOLO-DEX收集成功演示的速度比DIME快1.8倍。对于需要精确3D运动的3/6任务,研究发现单图像遥操作甚至不足以收集单个演示。本研究考察了各种模仿学习策略在灵巧性任务上的表现,不同策略下每项任务的成功率如下表2所示。由于本研究中提出的策略是基于视觉的,不需要明确估计物体的状态,因此它们在训练期间与看不见的物体兼容。该研究评估了其手动操作策略,这些策略经过训练可以对具有各种视觉外观和几何形状的对象执行平面旋转、对象翻转和CanSpinning任务,如下图5所示。此外,该研究还针对不同任务在不同规模的数据集上测试了HOLO-DEX的性能,可视化结果如下图所示。
