当前位置: 首页 > 科技观察

机器人成为人机协作团队的“领导者”?它是如何工作的?

时间:2023-03-21 12:53:59 科技观察

随着机器人技术的发展,机器人将在现实生活中扮演越来越重要的角色。它不仅按照人的指令行动,而且在人机协同工作中开始发挥指导人工作的作用。本文介绍了斯坦福人工智能研究所的研究人员如何应用领导者-追随者图(LFG)来更好地领导团队中的机器人。我们的大部分生活都围绕着团队合作。例如,我们可以通过明显(如一起做饭)和微妙(如在高速公路上共享车道)的方式与人群合作或影响人群。随着机器人越来越融入社会,它们应该能够与人类群体很好地协作。小组协作的例子包括协作烹饪、抗议和在拥挤的空间中航行。然而,接触人群具有挑战性。例如,假设在一次志愿搜索和救援任务中,无人机了解了有关目标位置的最新信息(如下图蓝色标记所示)。假设没有直接的通信方式,无人机应该如何将志愿者带到那个位置?蓝色箭头表示所需路径,红色箭头表示人类志愿者当前采用的次优路径。无人机领导团队的一种方式是分别为每个人建模并单独施加影响。其中,无人机建模的目的是理解和预测人的行为。然而,独立于他人建模和影响并不能很好地扩展到更多的个体,我们无法在线执行快速计算。为每个志愿者单独建模的无人机。这种方法不适合大量代理。影响人类团队的另一种方法是放弃任何建模,直接从团队观察中学习政策或行动计划。这种方式为同等规模的团队提供了合理的解决方案。但是,增加或减少团队成员会改变模型的输入大小,并且需要重新训练模型。我们取得了以下成果:介绍了一种可以以可扩展的方式对人群交互进行建模的方法。描述机器人如何利用这些知识来影响人类团队。与为人口中的每个个体建模人口的基本结构不同,我们的核心思想是专注于建模个体之间的关系。在群体互动中,我们不再孤立地行动,而是根据他人的行动有条件地行动。这些依赖关系提供了一个结构,我们可以用它来形成对他人的期望并据此采取行动。在更大范围内,这使我们能够制定规范、实践,甚至文化。这些依赖项对机器人很有用。因为它们提供了丰富的信息来源,可以帮助机器人建模和预测人类行为。我们将这些依赖关系称为潜在结构。日本(左)和印度(右)形成了不同的驾驶文化。潜在结构的一个重要例子是引导和跟随行为。我们可以很容易地组建团队,并决定是跟随还是带领团队高效地完成任务。例如,在搜救任务中,一旦发现有关目标的新信息,人类就可以自发地成为领导者。我们还默默地协调领导和跟随策略。例如,当司机开车时,他们会互相跟随对方穿过车道。在我们的工作中,我们将专注于将底层的前导和跟随结构建模为运行示例。搜索和救援任务中的志愿者(左)和交通中相互跟随的车辆(右)之间潜在的引导和跟随结构示例。那么我们如何对这些潜在结构进行建模呢?理想模型的属性是什么?在讨论如何对潜在结构建模之前,让我们首先确定一些基本要素?复杂性:由于这些结构通常是隐含地形成的,我们的模型应该足够复杂以捕捉个体之间的复杂关系。可扩展性:该模型应该能够适应不断变化的代理数量。潜在结构建模简单案例我们使用监督学习方法来估计两个人类代理之间的关系。回到对必要条件的讨论,这解决了复杂性问题,因为使用基于学习的方法使我们能够捕捉到这对可能具有的复杂关系。使用模拟器,我们可以要求参与者展示我们想要衡量的理想关系,例如领导和跟随。我们将搜索和救援任务抽象为一个游戏,其中目标代表潜在的幸存者位置。在下面的示例中,参与者被要求相互领导和跟随,以共同决定要实现的目标。关于人的数据通常很嘈杂,难以大规模收集。为了弥补这个缺点,我们用模拟的人类数据来扩充我们的数据集。然后,我们将这些数据输入神经网络模块。这些模块经过训练可以预测前任和后继关系。这为我们提供了一个模型,可以评估每个代理以及目标成为代理领导者的可能性。扩大团队规模现在,我们如何为更大的团队建模?使用上面的模型,我们可以将多个人之间的关系表示为一张图。每个描述的边缘都有一个由我们训练的神经网络分配的概率(概率在下图中抽象)。然后利用图论算法对原图进行剪枝得到最大似然图。例如,我们可以贪婪地为每个代理选择权重最高的出边。在其余图中,粗体边表示最有可能的边。我们称此图为领导者-跟随者图(LFG)。领导者-追随者图(LFG)。我们可以使用LFG来识别最有影响力的领导者,即拥有最多追随者的代理人。由于我们可以轻松地对实时变化的代理数量进行建模,因此图形结构可以随代理数量进行扩展。例如,在下一个时间步$kth$中添加代理所需的时间与代理程序的数量$n$和目标的数量$m$线性相关。实际上,这需要以毫秒为单位进行计算。泛化后我们的模型有多准确?我们的模型泛化的准确性是通过将领导者-追随者图所做的预测与地面实况所做的预测进行比较来评估的。使用模拟数据和包含模拟和真实人类数据(混合数据)的数据进行训练实验。我们发现训练更多代理有助于模型泛化。这表明在用更少的代理进行训练与用更多的代理进行训练(这需要收集更多数据)之间进行权衡。对机器人有用的潜在结构是什么?机器人可以使用潜在结构来推断有关团队的有用信息。例如,在领导和跟随示例中,我们可以识别代理人的目标或谁是最有影响力的领导者等信息。此信息允许机器人识别对任务至关重要的关键对象或代理。考虑到这一点,机器人可以采取行动以达到预期的结果。以下是机器人利用图结构影响人类团队的两个任务:A.合作任务在许多现实生活场景中,能够带领一群人实现目标是很有用的。例如,具有更多幸存者位置信息的机器人应该能够在搜索和救援任务中领导团队。我们创建了一个具有两个目标的类似场景,一个是幸存者的潜在位置,另一个是知道幸存者所在位置的机器人。机器人试图通过带领所有队友到达目标位置来最大化联合效用。为了影响团队,机器人使用领导者-追随者图来推断当前最有影响力的领导者是谁。然后机器人选择采取行动,使最有影响力的领导者实现最佳目标的概率最大化。在下图中,绿色圆圈代表位置(或目标),橙色圆圈代表模拟的人类代理,黑色圆圈代表机器人。机器人正试图带领团队走向更理想的底部位置。我们将使用图结构的机器人(顶部)与贪婪地瞄准最佳目标的机器人(底部)进行对比。在上图中,机器人朝着底部移动并绕着底部移动,这是最佳目标,以引导推断的领导者走向目标。在下图中,机器人直接朝底部目标前进,没有任何积极影响队友的尝试。如果多数人首先与潜在目标发生冲突,则机器人成功;如果大多数与次优目标相冲突,则机器人失败。下图记录了使用图形表示的机器人与使用其他基准策略的机器人的成功率。在n=4名玩家和不同目标的100多个合作游戏中的成功率。我们发现图形表示在具有大量潜在目标的更困难的场景中很有用。B.对抗性任务机器人可能还想阻止人类团队达成集体目标。例如,想象一个机器人队友试图阻止对手夺旗的夺旗游戏。我们创建了一个类似的任务,其中机器人想要阻止一组人类达到目标。为了让团队停滞不前,对抗性机器人使用领导者-追随者图来确定谁是当前最有影响力的领导者。然后,机器人会选择能够最大程度地引导其推断出的??最具影响力的领导者偏离目标的可能性的行动。下图左侧显示了机器人的运动示例。在右侧,我们展示了一个简单策略的示例,其中机器人随机选择一名玩家并尝试阻止它但未成功。上图,机器人使用领导者-追随者图采取行动,阻止推断的领导者达到目标。在下图中,机器人未能成功跟随玩家以阻止他到达目标。通过阻止玩家到达目标,机器人试图尽可能延长游戏时间。这是一个图表,使用机器人的图形表示与其他基准策略进行比较。与其他基线方法相比,使用领导者-追随者图(LFG)的两种策略成功地延长了游戏时间。我们发现,与其他基准策略相比,使用我们的图形表示的机器人在延长游戏时间方面最为成功。下一步是什么?我们引入了一种可扩展的方式来表示团队中的固有结构。然后我们演示如何使用此结构来设计智能影响行为。对于未来的工作,我们对以下内容感兴趣:实际实验。我们正在微型群机器人上实施我们的算法,以便可以用真实的机器人和人类进行人机协作实验。改变工作区域和结构。最好在更多类型的底层结构(例如,团队成员如何相互信任)和不同领域(例如,驱动程序、部分可观察的设置)上测试我们的框架。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。