当前位置: 首页 > 科技观察

如何教人工智能像人类一样计划?

时间:2023-03-20 13:33:47 科技观察

本文转载自公众号《核心阅读》(ID:AI_Discovery)人的规划是有层次的。无论是做饭这样简单的事情,还是出国旅游这样复杂的事情,我们通常都是先在脑海中勾勒出自己想要实现的目标,然后再将目标进一步细化为一系列细化的子目标,下层目标等等,最终实际的行动顺序会比原计划复杂很多。有效的规划需要理解构成分层规划实质的抽象高级概念。迄今为止,人类获得这些抽象概念的过程仍然未知。人类可以自发地构建这种高层概念,并可以根据任务、奖励和环境结构进行高效规划。同时,由于这种行为与底层计算的正式模型一致,因此这些发现能够建立在已建立的计算原则之上,并与以前对层次编程的研究联系起来。分层规划示例上图描绘了一个人如何计划离开他在剑桥的办公室,然后前往印度巴特那购买梦想中的婚纱装饰的示例。圆圈代表状态,箭头代表状态之间的转换。每个状态代表一组较低级别的状态。粗体箭头表示通常首先想到的高级状态之间的转换。贝叶斯视角当应用于计算代理时,分层编程使模型具有更高级的规划能力。通过假设特定环境结构下的生成过程,可以从贝叶斯的角度对层次表示进行建模。关于这个问题的现有工作包括开发一个计算框架,以在一组关于层次结构的简化假设下获得层次表示,即模拟人们如何创建状态以促进在无奖励环境集群的心理表示下进行规划。为了预测集群形成并将该模型与人类数据进行比较,我们创建了一个贝叶斯认知模型,该模型结合了集群的分层发现和奖励。我们分析了静态和动态奖励机制下的情况,发现人类将奖励信息概括为高级集群并使用奖励信息创建集群,表明该模型可以预测奖励泛化和基于奖励的集群形成。理论背景心理学和神经科学交叉的一个关键领域是对与规定行为相关的人类行为的正式理解。我们想知道:AI在完成某项任务后,会遵循怎样的计划和方法?人类如何找到有用的抽象概念?这是个有趣的问题。人类和动物具有适应新环境的独特能力。先前对动物的研究学习文献表明,这种灵活性源于目标的分层表示,这使得能够将复杂任务分解为可扩展到各种环境的低级子程序。分组分组发生在将动作组合成实现更远目标的时间延迟动作序列时,它通常发生在学习从目标导向系统转移到以刻板方式执行动作的习惯系统之后。从计算的角度来看,由于这种分层表示,代理能够在开环中快速执行操作;遇到已知问题时可以重复使用熟悉的动作序列;甚至可以调整已建立的动作序列来解决您之前遇到的问题,从而更快地学习并计划更长的时间范围。智能体不需要考虑与目标相关的细节,例如,去商店的目标被分解为离开房间、步行和进入商店,而不是起身,将左脚向前移动到将右脚向前移动等。分层强化学习智能体如何做出奖励决策是强化学习的主题。分层强化学习(HRL)已成为描述分层学习和规划的主流框架,并且在对HRL建模的研究中,已经出现了围绕构建模型的底层方法的观点。作者担心人们会自发地将环境规划为限制规划的状态集群。在时间和记忆方面,这种分层规划比平面规划更有效率,后者涉及低级动作,依赖于人有限的工作记忆能力。在下图中,粗节点和边表示必须在短期记忆中考虑和维护它们才能计算计划,灰色箭头表示集群成员。在低层图G中,从状态s到状态g的规划至少需要与实际执行计划的步骤(顶部)一样多的步骤,而高层图H的引入缓解了这个问题并降低了计算成本(中间)。同时,扩展递归级别进一步减少了规划所涉及的时间和内存(底部)。索尔威等。提供最佳分层的正式定义,但他们没有具体说明大脑如何发现它。我们假设最佳分层取决于环境的结构,包括图形结构和环境可观察特征的分布,尤其是奖励。该模型假设代理将其环境视为图形,其中节点是环境中的状态,边是状态之间的转换。这些状态和转换可以是抽象的,但同样也可以像地铁站和其中运行的火车线路一样具体。该结构将可观察环境表示为图G=(V,E),将潜在层表示为H。G和H都是未加权且无向的,H由簇组成,其中G中的每个下层节点恰好属于一个集群,以及连接这些集群的桥或更高级别的边缘。集群k和k′之间的桥只有在某些v之间存在边时才会存在,v′∈V使得v∈k和v′∈k′,即H中的每个高级边都在有一个对应的G中的低级边。在下图中,颜色表示集群分配。在规划时,规划者会考虑黑边,而忽略灰边。粗边对应于簇之间的过渡。簇w和z之间的转换是通过桥接完成的。高级图(顶部)和低级图(底部)的示例。在添加奖励之前,寻找最佳分层的学习算法受到以下因素的约束:小集群集群内的强连接集群之间的稀疏连接但是,我们不希望集群太小——在极端情况下,每个节点都是自己的集群,使得等级制度没用。此外,虽然跨集群的稀疏连接是可取的,但我们也希望集群之间的桥梁仍然存在,以保留底层图像的属性。我们使用离散时间随机中餐馆过程(CRP)作为聚类的先验。通过反转生成模型以获得分层H后验概率来实现分层发现。正式提出的生成模型生成这个层次结构。奖励在图G的上下文中,奖励可以解释为顶点的视觉特征。由于人们通常基于视觉特征进行聚类,因此奖励诱导聚类模型是合理的。此外,我们将每个状态设置为提供随机确定的奖励,代理的目标是最大化总奖励。因为我们假设集群会产生奖励,所以每个集群都建立了相同的奖励。该集群中的每个节点都具有从以等奖励集群为中心的分布中提取的等奖励。最后,每个可见的奖励都是从以该节点的相等奖励为中心的分布中提取的。为了简化推理,首先假设奖励是恒定的和静态的。在具有固定概率的观察之间变化的某些奖励被标记为动态的。我们使用两个实验来检验我们关于人类行为的假设并了解我们模型的预测能力。特别是,我们检查了集群在多大程度上推动了奖励的产生,以及奖励在多大程度上推动了集群的形成。对于每个实验,我们都会收集人类数据并将其与模型的预测进行比较。Cluster-InducedRewards第一个实验的目标是了解奖励如何跨状态集群传播。我们测试了图结构是否驱动集群形成,以及是否将在一个节点观察到的奖励推广到该节点所属的集群。建立并让32个被试根据以下场景选择下一个要访问的节点。下图或其翻转版本随机呈现给参与者,以确保没有人为偏见或未引入的图形结构。我们预测参与者选择的节点将靠近位于较大集群的标记节点,在第一种情况下,灰色节点位于蓝色节点的左侧,灰色节点位于蓝色节点的右侧。向参与者展示了以下任务和相关图表:您在一个由几个独立的矿山和隧道组成的大型金矿中工作。矿井布局如下图所示(每个圆圈代表一个矿井,每条线代表一个隧道)。你每天都会得到报酬,当天发现的每克黄金再加上10美元。您每天只开采一个矿山并记录当天的黄金产量(以克为单位)。在过去的几个月里,您发现每个矿山平均每天生产大约15克黄金。昨天,你挖了下图中的一个蓝色矿井,得到了30克黄金。你今天要开采两个地雷中的哪一个(阴影区域)?请圈出您选择的矿山。向参与者展示的矿图我们希望大多数参与者能够自动识别下面由桃色和薰衣草色节点表示的不同簇,并根据这些簇决定选择哪个簇。假设参与者会选择桃色节点而不是薰衣草色节点,因为标签为30(远大于平均值)的节点位于桃色集群中。向参与者展示的矿山图纸类似于集群。推论我们使用Metropolis-within-Gibbs采样并将贝叶斯推导应用于H近似。这组样本通过对H的后续采样更新H的每个组件,在一个Metropolis-Hastings步骤中调节所有其他组件。高斯随机游走用作连续分量的建议分布,条件CRP先验用作组分配的建议分布。这种方法可以解释为随后定义效用函数的随机爬山算法。结果真实组和模拟组各有32名参与者。模型输出的前三个集群如下图所示(左侧区域)。所有前三个结果都相同,这表明该模型以高置信度识别了彩色分组。参与者和静态奖励模型的结果显示在下方的条形图(右面板)中,显示了选择接下来访问节点2的人类和模拟对象的比例。黑色实线代表平均值,黑色虚线代表2.5%和97.5%。RewardGeneralizationinClusteringExperimentsResultsofRewardGeneralizationinClusteringExperiments下表中的p-values是通过右尾二项式检验计算的,其中null值假设二项式分布,而不是选择左右灰色节点。显着性水平设置为0.05,人体实验结果和模型结果均具有统计学意义。人类行为和静态奖励模型奖励诱导的聚类第二个实验的目的是确定奖励是否诱导聚类。我们预测在相邻位置具有相同奖励的节点将聚集在一起,即使图的结构本身不会引起聚类。Solway等人的研究。表明人们更喜欢跨越最少分层边界的路径。因此,在两条相同的路径之间,选择一条而不是另一条的唯一原因是它跨越的层次边界更少。对此可能的反驳是,人们会选择回报更高的道路。然而,在下面详述的设置中,奖励仅在目标状态下提供,而不是沿着选定的路径递增。此外,奖励的大小因试验而异。因此,人们不太可能喜欢一条路径,因为它的节点有更高的回报。该实验是在网络上使用AmazonMechanical-Turk(MTurk)设置的。为参与者提供以下任务背景:假设您是一名矿工,在由隧道相连的金矿网络中工作。每个矿山每天都会产出一定数量的黄金(简称“点数”)。每天,您的工作是从起始矿山导航到目标矿山,并在目标矿山收集积分。在某些日子里,您可以自由选择任何您喜欢的地雷。在这一点上,您应该尝试选择给您最多分数的矿山。而在其他日子里,只有一个地雷可用。这个矿点是绿色的,其他矿点是灰色的,不能选。此时你只能导航到可用的地雷。每个地雷的点数将写在上面。当前的地雷将以粗边框突出显示。您可以使用箭头键(上、下、左、右)在地雷之间导航。到达目标矿井后,按空格键收集积分并开始第二天的工作。实验将有100天(试验)。下图(左)呈现给参与者。为了控制潜在的左右不对称,与之前的实验一样,参与者被随机分配到图中所示的布局或其水平翻转版本。还描绘了预期的诱导集群,节点编号以供参考(右)。向MTurk参与者展示的地雷地图(左)和可能的集群(右)。我们将第一种情况称为参与者选择自由导航到任何矿井,将第二种情况称为参与者选择导航到指定矿井。参与者在每次试验中都会获得金钱奖励,以阻止随机反应。在每次试验中,奖励值以0.2的概率变化。新的奖励是从区间[0,300]中随机抽取的。然而,在试验之间,奖励的分组保持不变:节点1、2和3总是共享一个奖励值,节点4、5和6共享另一个,节点7、8、9和10有第三个奖励值。奖励价值。前99次试验允许参与者建立集群的层次结构。实验的最后一次试验要求参与者从节点6导航到节点1。假设奖励诱导了如上所示的聚类,我们预测更多参与者将选择通过节点5的路径,该路径仅跨越一个集群边界,并且通过节点的路径7,跨越两个集群边界。推论我们对固定选择案例进行了建模,假设所有100次试验中的任务与呈现给参与者的第100次试验相同。首先假设一个静态奖励,它在所有测试中保持不变。接下来,假设动态奖励,即每次试验奖励都会改变。与之前模型预测参与者选择的节点的实验不同,本实验侧重于参与者选择的从起始节点到目标节点的完整路径中的第二个节点。因此,为了将模型与人工数据进行比较,使用广度优先搜索的一种变体(以下简称层次BFS)来预测从起始节点(节点6)到目的节点(节点1)的路径).静态奖励。对于每个被试,采用Metropolis-within-Gibbs抽样,从后验样本中抽样,选择最有可能的层,即后验概率最高的层。然后,使用分层BFS,首先找到集群之间的路径,然后找到集群内节点之间的路径。动态奖励。对于动态奖励,我们使用在线推理。对于每个模拟参与者,每个试验仅抽样10个步骤,然后保存分层并添加有关修改奖励的信息。接下来从保存的层再次开始采样。在人工试验中,尽管整个人群的奖励总是相等的,但在每次试验开始时,奖励都会以0.2的概率重新随机分配新值。这种推理方法模仿了人类参与者在许多试验过程中累积学习的方式。出于实验目的,假设人们一次只记住一层,而不是同时更新多个层。对数后验进行了修改以惩罚未连接的集群,因为此类集群在这种类型的推理下更为普遍。结果人类组和两个模拟组都有95名参与者。选择通过节点5和通过节点7的路径的参与者数量相等表示零假设,因为在没有任何其他信息的情况下,假设两条路径长度相等,参与者同样有可能选择其中一条路径。人类行为与静态和动态奖励模型如上表所示,人体试验和静态奖励建模的结果在α=0.05时具有统计显着性。此外,如下所示,人体试验的结果位于正态分布的第90个百分位数,以0.5为中心,给出了原假设下的预期比例。在此图中,我们包括由静态奖励模型(第一行)、在断开连接的组件之间形成集群的静态奖励模型(第二行)和动态奖励模型(第三行)识别的集群。用于模拟识别的集群静态奖励。我们使用1000个Metropolis-in-Gibbs样本来生成每个样本,每个样本的老化和滞后均为1。静态奖励下的模拟肯定有利于通过节点5的路径达到具有统计意义的水平。此外,由于目的是模拟人类行为,鉴于人类数据也具有统计显着性(0.0321<α=0.05),该结果是有意义的。选择人类和模拟对象的动态奖励。为了模拟人体试验,我们进行了100次试验,每次试验进行10次Metropolis-within-Gibbs迭代以进行后验采样。burnin和lag再次设置为1。尽管动态奖励模型下的模拟器组比静态奖励模型下的模拟组离假设更远,但在线推理方法似乎比静态奖励模型更适合创建人类数据模型。在动态奖励模型下,56名人类和54名模拟参与者选择了节点5(差异3.4%),而在静态奖励模型下则有64名模拟参与者(差异18.5%)。上面的直方图显示了在所选路径上的第二个节点是节点5的人类和模拟器的比例。黑色实线表示给定零假设的预期比例,黑色虚线表示第10个和第90个百分位数。人类似乎自发地将环境组织成??支持分层编程的状态集群,从而通过将具有挑战性的问题分解为不同抽象级别的子问题来解决具有挑战性的问题。人们始终依靠这种层次结构来完成大大小小的任务,而且往往一次成功。我们表明,最佳层次结构不仅取决于图形的结构,还取决于环境的视觉特征,即奖励的分布。我们建立分层贝叶斯模型来理解聚类如何引发静态奖励,以及静态和动态奖励如何引发聚类,并发现就我们的模型捕捉人类行为的密切程度而言,大多数结果在统计上都是显着的。