结合传统学习和模仿学习的物体导航物体导航是智能机器人的基本任务之一。在这项任务中,智能机器人在未知的新环境中主动探索,寻找人类指定的某类物体。物体目标导航任务面向未来家庭服务机器人的应用需求。当人们需要机器人完成某些任务时,比如拿一杯水,机器人需要先找到并移动到水杯的位置,然后再帮助人们拿到水杯。栖息地挑战赛由MetaAI和其他组织联合举办。它是对象导航领域中众所周知的事件之一。截至2022年,已连续举办4届。共有54支队伍参加了本次比赛。在比赛中,字节跳动AILab-Research团队的研究人员针对现有方法的不足提出了一种新的object-target导航框架。该框架将模仿学习与传统方法巧妙结合,脱颖而出夺得冠军。在关键指标SPL上,大大超过了第二名和其他参赛队伍的成绩。历史上,本次赛事的冠军队伍通常是CMU、UCBerkerly、Facebook等知名研究机构。Test-StandardlistTest-ChallengelistHabitatChallenge官网:https://aihabitat.org/challenge/2022/HabitatChallengeLeaderBoard:https://eval.ai/web/challenges/challenge-page/1615/leaderboard1。研究动机目前的对象到对象导航方法大致可以分为两类:端到端方法和基于地图的方法。端到端方法提取输入传感器数据的特征,然后将其送入深度学习模型以获得动作。此类方法一般基于强化学习或模仿学习(如图1Map-less方法所示);map-based方法一般构造显式或隐式地图,然后通过强化学习等方法在地图上选择一个目标点,最后规划一条路径并得到一个动作(图1Map-based方法)。图1 end-to-endmethod(上)和map-basedmethod(下)流程图研究人员在对两类方法进行大量实验对比后发现,两类方法各有千秋优缺点:端到端的方法不需要构建环境的地图,因此更简洁,对不同场景的泛化能力更强。但是,由于网络需要学习对环境的空间信息进行编码,依赖于大量的训练数据,很难同时学习到一些简单的行为,比如停在目标物体附近。而基于地图的方法使用栅格来存储特征或语义,具有明确的空间信息,因此此类行为的学习阈值较低。但它非常依赖准确的定位结果,在楼梯等一些环境中,需要人工设计感知和路径规划策略。基于以上结论,字节跳动AILab-Research团队的研究人员希望将两种方法的优势结合起来。但是,这两类方法的算法过程有很大的不同,很难直接结合起来;此外,也很难设计一种策略来直接融合两种方法的输出。因此,研究人员设计了一种简单但有效的策略,让两类方法根据机器人的状态交替进行主动探索和目标搜索,从而最大限度地发挥各自的优势。2.竞争法算法主要由两个分支组成:基于概率图的分支和端到端的分支。算法的输入是第一视角RGB-D图像和机器人的位姿,以及要寻找的目标物体类别,输出是下一步动作(action)。RGB图像首先被实例分割并与其他原始输入数据一起传递到两个分支。两个分支输出各自的动作,切换策略决定了最终的输出动作。图2算法流程示意图Thebranchbasedontheprobabilitymap基于概率图的分支借鉴了theSemanticlinkingmap[2]的思想,对原论文[3]的方法进行了简化作者在IROS机器人峰会上发表。该分支根据输入的实例分割结果、深度图和机器人位姿构建二维语义图;另一方面,它根据预先学习的对象之间的关联概率更新概率图。概率图的更新方式包括:当检测到目标物体但不够确定(置信度低于阈值)时,应该继续接近此时的观测值,因此概率图的概率值应增加概率图上的相应区域(如上图3);同理,如果检测到与目标物体相关的物体(比如桌子和椅子放在一起的概率比较高),则对应区域的概率值也会增加(如图底部所示)3).该算法通过选择概率最大的区域作为目标点,促使机器人靠近潜在目标物体和相关物体进行进一步观察,直到找到置信概率高于阈值的目标物体。图3概率图更新方式示意图End-to-end分支End-to-end分支的输入包括RGB-D图像、实例分割结果、机器人位姿、目标物体类别,直接输出动作.端到端分支的主要作用是引导机器人像人一样寻找物体,因此采用Habitat-Web[4]方法的模型和训练过程。该方法基于模仿学习,其中通过收集人类在训练集中寻找对象的示例来训练网络。切换策略切换策略主要是根据概率图和路径规划的结果,选择概率图分支和端到端分支输出的两个动作中的一个作为最终输出。当概率图中不存在概率大于阈值的格子时,机器人需要探索环境;当无法在地图上规划可行路径时,机器人可能处于一些特殊的环境中(例如楼梯)。端到端的分支使机器人具有足够的环境适应性。在其他情况下,选择概率图分支以充分发挥其在寻找目标对象方面的优势。视频中显示了这种切换策略的效果。一般来说,机器人使用端到端分支来有效地探索环境。一旦找到可能的目标对象或关联对象,它就会切换到概率图分支以进行更近距离的观察。如果目标物体的置信度概率大于阈值,则停在目标物体处;否则,该区域的概率值会不断减小,直到没有概率大于阈值的格子,机器人会切换回end-to-end继续探索。从视频中可以看出,这种方法结合了端到端和基于地图的方法的优点。两个分支各司其职,端到端方法主要负责探索环境;概率图分支负责观察感兴趣区域附近。因此,该方法不仅可以在复杂场景(如楼梯)中进行探索,还可以降低端到端分支的训练要求。3.总结针对物体的主动目标导航任务,字节跳动AILab-Research团队提出了一个将经典概率图与现代模仿学习相结合的框架。该框架是将传统方法与端到端方法相结合的一次成功尝试。在人居赛中,字节跳动AILab-Research团队提出的方法大大超过了第二名和其他参赛团队的成绩,证明了算法的先进性。通过将传统方法引入当前主流的EmbodiedAI端到端方法,进一步弥补了端到端方法的一些不足,让智能机器人在帮助和服务的道路上更进一步人们。近期,字节跳动AILab-Research团队在机器人领域的研究也被CoRL、IROS、ICRA等顶级机器人会议收录,包括物体姿态估计、物体抓取、目标导航、自动装配、人机交互等和其他机器人。核心使命。[CoRL2022]GenerativeCategory-LevelShapeandPoseEstimationwithSemanticPrimitives论文地址:https://arxiv.org/abs/2210.01112[IROS2022]3DPartAssemblyGenerationwithInstanceEncodedTransformer论文地址:https://arxiv.org/abs/2207.01779[IROS2022]NavigatingtoObjectsinUnseenEnvironmentsbyDistancePrediction论文地址:https://arxiv.org/abs/2202.03735[EMNLP2022]TowardsUnifyingReferenceExpressionGenerationandComprehension论文地址:https://arxiv.org/abs/2202.03735arxiv.org/pdf/2210.13076[ICRA2022]LearningDesignandConstructionwithVarying-SizedMaterialsviaPrioritizedMemoryResets论文地址:https://arxiv.org/abs/2204.05509[IROS2021]SimultaneousSemanticandCollisionLearningfor6-DoFGraspPoseEstimation论文地址:https://arxiv.org/abs/2108.02425[IROS2021]LearningtoDesignandConstructBridgewithoutBlueprint论文地址:https://arxiv.org/abs/2108.024394。参考文献[1]Yadav,Karmesh,etal.“Habitat-Matterport3D语义数据集。”arXiv预印本arXiv:2210.05633(2022).[2]曾哲n、AdrianR?fer和OdestChadwickeJenkins。“用于主动视觉对象搜索的语义链接图。”2020年IEEE机器人与自动化国际会议(ICRA)。IEEE,2020.[3]朱敏照、赵炳磊和孔涛。“通过距离预测导航到看不见的环境中的物体。”arXiv预印本arXiv:2202.03735(2022).[4]Ramrakhya、拉姆等人。“Habitat-Web:从大规模人类示范中学习具身对象搜索策略。”IEEE/CVF计算机视觉和模式识别会议论文集。2022.5.关于我们字节跳动AILabNLP&Research专注于人工智能领域前沿技术研究,涵盖自然语言处理、机器人等技术研究领域,致力于研究成果落地,提供核心技术支持和服务团队技术能力公司现有产品和业务通过火山引擎对外开放,赋能AI创新。字节跳动AI-LabNLP&Research联系方式招聘咨询:fankaijing@bytedance.com学术合作:luomanping@bytedance.com
