当前位置: 首页 > 科技观察

机器人懂一点“常识”,找东西快得多:CMU打造新型语义导航机器人

时间:2023-03-21 15:38:45 科技观察

转载来源。让机器人像人一样思考,似乎一直是个难题。例如,让机器人拿起放在“植物”旁边的遥控器,机器人几乎立刻就探测到了“植物”盆栽的位置,从而探测到遥控器的存在。该项目已被ECCV2020接收,并获得ResidentialTargetNavigationChallenge第一名。我们来看看实现过程。让机器人“学习一些常识”。事实上,以往通过机器学习训练出来的语义导航机器人,大多都不太擅长找东西。与人类潜意识中形成的常识相比,机器人往往有点“死脑筋”,它们更倾向于记住目标物体的位置。然而,物体所在的场景往往非常复杂,而且彼此之间千差万别(俗话说,家常便饭乱)。如果系统是用大量不同的场景训练的,那么模型的泛化能力就不是很好。.因此,相比于用更多的样本来训练系统,研究人员这次改变了思路:使用半监督学习的方法,使用一种叫做语义好奇心(semanticcuriosity)的奖励机制来训练系统进行训练。训练的核心目的是让系统根据对语义的“理解”来确定目标对象的最佳位置。换句话说,就是让机器人“学习一些常识”。例如,通过了解冰箱和浴室的区别,机器人可以了解目标物体和房间布局之间的关系,并计算出最容易找到物体的房间。(就像沙发通常在客厅,而不是在浴室)一旦确定了物体最有可能的位置,机器人就可以直接导航到预期位置,并快速检测到目标物体的存在。这个过程叫做探索策略。使用MaskRCNN的训练和探索策略如下图所示。该策略的实施分为三个步骤:学习、训练和测试。首先,MaskRCNN用于预测图像从上到下的目标,用于训练探索策略,负责生成目标检测和场景分割所需的训练数据。标记训练数据后,数据用于微调和评估目标检测和场景分割。在目标检测的过程中,即使面对物体的镜头转动360,机器人也必须将其识别为同一物体。最关键的步骤之一是构建语义图。构建“魔法”图从下图可以看出,图像被处理成RGB和Depth模式。其中,RGB图像会通过MaskRCNN网络得到目标分割预测。Depth架构用于计算点云,其中的每个点都会根据MaskRCNN的预测结果与语义标签相关联。最后,根据几何计算,在空间中生成三维立体图。每个通道用于表示一个对象类别,原始的2D地图将转换为3D语义地图。借助语义地图,机器人可以在移动时准确预测3D空间中的物体。“语义好奇心”奖励机制但是会出现一种情况,如果目标物体在不同帧上的预测标签不同,那么语义图中这个物体对应的multiplechannels就会为1。如下图,系统预测的目标标签在不同的时间可能会有所不同,有时是床,有时又变成沙发。这是语义好奇心的策略。论文定义了cumulativesemanticcuriosityreward,指语义图中所有元素总和的比例。语义好奇奖励机制使用强化学习来最大化这个比率。通过了解物体之间的差异,进而了解房间的布局,系统逐渐了解房间与物体之间的联系。实验结果证明该方法非常有效。在训练过程中,机器人可以专注于理解目标物体与房间布局之间的关系,而不是不断地规划路径。经过训练的机器人在人机交互的方向上变得更容易操控。例如,在各种方法下,即使探索区域不如倒数第二和第三种方法,语义好奇心仍然检测到相当数量的对象。这表明它在进行目标检测时可以更专注于需要检测的对象。从下图可以看出,semanticcuriosity明显发现了更多其他策略找不到的对象,这对于检测目标非常有效。在最终的训练结果中,语义好奇心得分最高,为39.96。这种方式使得人与机器人的交互更容易实现。作者介绍DevendraSinghChaplot,他是卡内基梅隆大学(CMU)的博士生,专注于深度强化学习及其在机器人和自然语言处理中的应用。传送门:论文链接:https://arxiv.org/pdf/2006.09367.pdf项目链接:https://devendrachaplot.github.io/projects/SemanticCuriosity