当前位置: 首页 > 科技观察

强化学习教父新论文探索决策智能体的通用模型:寻找跨学科共性

时间:2023-03-17 15:03:18 科技观察

强化学习教父的一篇新论文探索了决策代理的一般模型:寻找跨学科的共性随着时间的推移,多个学科在目标导向决策方面有着共同的兴趣。最近,阿尔伯塔大学计算机科学教授兼强化学习先驱RichardS.Sutton在他的最新论文《The Quest for a Common Model of the Intelligent Decision Maker》中通过提出政策制定者对心理学、人工智能、经济学和它在计算机科学、控制理论和神经科学等领域得到实质性广泛应用,他称之为“智能代理的通用模型”。通常该模型不包含任何特定于任何有机体、世界或应用领域的内容,但涵盖了决策者与其世界(必须有输入、输出和目标)交互的所有方面以及决策者的内部组件(用于感知、决策、内部评估和世界模型)。论文地址:https://arxiv.org/pdf/2202.13252.pdfSutton对这些方面和组成部分进行了识别,指出它们在不同学科中被赋予不同的名称,但本质上指向同一个思路。他讨论了设计一个可以跨学科应用的中性术语的挑战和好处,并认为现在是时候在智能代理的实质性通用模型上认识和建立不同学科的融合。DeepMindAlberta特聘研究科学家,强化学习教父RichardS.Sutton探索决策者通用模型RLDMRLDM的前提是它对所有对“随着时间的推移进行学习和决策以实现目标”感兴趣的学科都具有价值一起分享观点。心理学、神经科学等自然科学学科,人工智能、最优控制理论等工程科学学科,经济学、人类学等社会科学学科,都只部分关注智能决策者。各个学科的观点各不相同,但也有共同的要素。跨学科性的一个目标是确定一个共同的核心,即决策者对所有或许多学科具有共同点的那些方面。如果能够为决策者建立这样一个共同的模型,就可以促进思想和结果的交流,进步可能会更快,所获得的理解可能会更加根本和持久。探索决策者的一般模型并不新鲜。衡量其当前活力的一个重要指标是RLDM和NeurIPS等跨学科会议以及《神经计算》、《生物控制论》和《适应行为》等期刊的成功。许多科学见解可以从跨学科的相互作用中收集到,例如贝叶斯方法在心理学中的广泛应用,神经科学中多巴胺对奖励预测错误的解释,以及机器学习中长期使用的神经网络隐喻。尽管这些学科之间的许多重要关系与学科本身一样古老,但它们远未得到解决。为了找到学科之间甚至学科内部的共性,人们不得不忽略许多差异。我们必须有选择性,放眼大局,不要期望没有例外。因此,萨顿希望在本文中推进对智能决策者模型的研究。第一个明确区分探索与富有成效的跨学科互动;第二个强调目标是作为高度跨学科的累积数字信号的最大化;多个学科共有的主要组成部分;最后强调了掩盖领域之间共性的术语差异,并提供了鼓励多学科思考的术语。交互项决策者随着时间的推移做出决策,这些决策可以分为离散的步骤,在每个步骤接收新信息并做出可能影响以后接收到的信息的决策。也就是说,随着时间的推移与交换的信号进行交互。我们应该使用什么术语来表示信号和交换信号的实体?在心理学中,决策者是一种接受刺激并对环境做出反应的有机体。在控制理论中,决策者被称为控制器,接收状态并向工厂发送控制信号。政策制定者在其他领域使用其他术语,这说明了寻找不会使读者对某个领域产生偏见、反而有助于跨学科思考的术语的挑战。开始构建术语的一个好方法是阐明这些词的意思和意思。后者对我们尤其重要,因为我们不希望术语唤起特定于任何特定学科的直觉。例如,将决策者视为有机体会干扰将其视为机器,如人工智能。决策者的本质是其行动具有一定的自主性,对输入非常敏感,具有影响未来输入的倾向。决策者的一个好用词是代理人,它被定义为“作为主动决策或产生特定效果的人或事物”。人工智能领域经常使用代理这个词来表示决策者,这个决策者可以是机器也可以是人。代理人也优于决策者,因为它意味着自主性和目的性。那么决策代理与什么交互呢?答案是它可以与任何不是代理的东西交互,这可以称为它的环境或世界。这两个术语与特定学科没有很强的关联性,但本文之所以选择world是因为它更简单,并且不以令人印象深刻的方式与任何特定学科相关联。如下图所示,为了完成智能体与世界交互的场景,我们必须对每个方向传输的信号进行命名。很自然地说,代理采取行动并接收感知或观察。此处使用观察是因为它是用于此目的的既定术语,以避免关于机器是否有感知力的形而上学讨论。在标准用法中,观察指的是关于世界状况的可能不完整的信息。基本规则前面的讨论说明了萨顿在术语方面想要遵循的基本规则和步骤,如下:确定一个词打算传达的独立于学科的意义;找到一个能够表达该含义而又不过分偏袒其中一个或另一个的术语;一门学科的常识性词汇;重复前两个步骤,直到找到跨学科的共性。Sutton遵循的第二条基本规则不是关于术语,而是关于内容。当我们要开发一个通用的决策模型时,应该包括和排除哪些方面?他试图遵循的规则是涵盖领域的交叉点而不是联合。也就是说,为了包含一个方面,它仅出现在一个域中是不够的,它必须至少与许多(如果不是全部)其他域相关联。通用模型的各个方面通常必须随时间推移应用于所有决策以实现目标。通用模型中不应该有任何特定于我们世界的东西,例如视觉、对象、3D空间、其他代理或语言。我们排除的简单例子是所有使人与众不同和不同于其他动物的东西,或者动物进化以适应其生态环境的所有特定知识。这些是人类学和动物行为学中特别重要的主题,它们真正促进了我们对自然智能系统的理解,但在一般模型中没有立足之地。同样,我们排除了人类设计师在人工智能系统中构建的所有领域知识,以开发需要较少培训的应用程序。所有这些在各自的学科中都很重要,但与旨在跨学科应用的一般模型无关。除了促进跨学科互动之外,通用决策模型可能还有其他用途。随着现有学科及其价值观的建立,很容易看到学科内的共同成果。理解自然系统具有明确的科学价值,而在创造更有用的工程产品方面具有重要的实用价值。但是,如果不考虑智能决策与自然决策的关系,不考虑智能决策产品的实际效用,理解智能决策的过程就没有科学价值吗?萨顿是这么认为的。智能决策不是一门现成的科学,但有朝一日可能成为一门独立于生物学或其工程应用的决策科学。AdditiveReward现在让我们讨论决策代理的目标。大多数学科现在根据在代理直接控制之外生成的标量信号来指定代理的目标,因此我们将它们的生成放在世界中。一般来说,这个信号在每个时间步到达,目的是使总和最大化。这种附加奖励可用于将目标制定为折扣总和或有限范围内的总和,或作为每个时间步长的平均奖励。有许多名称用于描述奖励,例如支付、收益或效用,以及最小化奖励的成本。如果允许成本为负,成本和最小化在形式上是等价的。一个更简单但仍然流行的目标概念是要达到的世界状态。有时也可以使用目标状态,但不像附加奖励那样普遍。例如,目标状态不能维护目标,也不能明确说明时间成本和不确定性之间的权衡,但所有这些都可以通过附加框架轻松处理。加性奖励具有悠久的跨学科历史。在心理学中,奖励主要用于取悦动物的外部物体或事件,即使这种愉悦源于该物体与某种以更基本的方式奖励的东西——初级强化物——的联系。今天在运筹学、经济学和人工智能中对奖励的使用仅限于更重要的信号,并且是接收到的信号,而不是与外部对象或事件相关联的信号。随着1960年代最优控制和运筹学研究中马尔可夫决策过程的发展,这种用法似乎已经确立。它现在是广泛学科的标准,包括经济学、强化学习、神经科学、心理学、运筹学和人工智能的几个子领域。决策代理标准组件现在我们转向代理的内部结构。Agent一般模型的内部结构通常由感知、响应策略、价值函数、转换模型四部分组成,如下图所示。这四个组成部分对许多学科都是通用的,但很少有代理可以包含所有这些。当然,一些具体的代理还可能包括其他部分。下面Sutton介绍了这四个组件。感知组件处理观察、动作流以生成主观状态,这是迄今为止代理与世界交互的总结,用于选择动作(反应策略)、预测未来奖励(价值函数)和预测未来主观状态(转换模型)很有用。状态是主观的,因为它与代理的观察和行为有关,可能与现实世界的内部运作不符。通常,主观状态的构造是固定的,在这种情况下,假设主体直接接收主观状态作为观察。例如,在Atari游戏中,主观状态可能是最后4个视频帧及其相邻的动作。在贝叶斯方法中,主观状态确实与世界的内部运作有关:主观状态的目的是近似世界中使用的潜在状态的概率分布。在预测状态方法中,主观状态是一组预测。在深度学习中,主观状态通常是循环人工神经网络的瞬时活动。在控制理论中,感知分量的计算通常称为状态识别或状态估计。一般来说,感知组件应该具有递归形式,它允许代理根据以前的主观状态、最近的观察和最近的动作有效地计算主观状态,而无需重新访问以前冗长的观察和动作。感知组件必须能够快速处理,即在主体与世界交互的连续时间步长之间的时间间隔内。一般模型的反应策略组件将主观状态映射到动作。和感知一样,反应策略一定要快,感知的快慢和反应策略共同决定了agent整体的反应时间。有时感知和响应策略是一起处理的,就像在端到端学习中一样。将行动生成分为感知和政策在许多学科中都很常见。在工程学中,通常假设感知是给定的,而不是学习的,甚至是代理的一部分。工程学显然有反应策略的想法,通常是通过分析计算或推导出来的。AI系统通常假设在一个动作(例如下棋程序)之前可以有很多处理。在心理学中,感知通常被视为支持但先于行动,并且可以独立于对特定行动的影响进行研究。一般模型的价值函数组件将主观状态(或状态-动作对)映射到标量评估,在操作上定义为预期的累积奖励。这种评估是快速的并且独立于直觉等因素,但可能基于长期经验(甚至是专家设计)或来自高效存储或缓存的大量计算。无论哪种方式,研究人员都可以快速调用评估来支持改变响应策略的过程。价值函数具有非常广泛的多学科历史。在经济学中,它们被称为效用函数;在心理学上,它们与二级强化物的旧观念和奖赏预测的新观念有关。价值函数一词最初来自动态规划,然后在强化学习中得到应用,价值函数被广泛用作理论和大多数学习方法的关键组成部分。在神经科学中,价值函数中的错误,或奖励预测错误,已被假设为解释神经递质多巴胺的相位信号。代理通用模型的第四个也是最后一个组成部分是转换模型,它采用状态并预测如果代理采取不同的动作,下一个状态将是什么。转换模型可以称为世界模型,但这会夸大转换模型的作用。切换模型用于模拟各种动作的效果,并借助价值函数评估可能的结果并改变响应策略,以支持具有预测良好结果的行为,并反对具有预测不良结果的行为。转换模型在许多学科中发挥着重要作用。在心理学中,自肯尼斯·克雷克(KennethCraik)(1943)和爱德华·托尔曼(EdwardTolman)(1948)的工作以来,由转换模型和感知提供的世界内部模型一直是卓越的思维模型。在神经科学领域,包括卡尔弗里斯顿和杰夫霍金斯在内的理论家开始广泛发展大脑理论。最近在心理学方面,DanielKahneman(2011)提出了两个心理系统的概念,第一系统和第二系统。在控制理论和运筹学中,研究人员通常使用各种形式的变换模型,包括微分方程模型、差分方程和马尔可夫模型。在强化学习中,很早就提出了基于模型的学习方法,并开始在大规模应用中发挥作用。在现代深度学习领域,YoshuaBengio、YannLeCun和JurgenSchmidhuber等著名研究人员将世界的预测模型置于他们思想的中心。约束和评估这是寻找通用代理模型任务的简单方法。本文中简要提出的所有要点都值得详细阐述,并对历史进行更深入的处理。然而,要点似乎很清楚。我们提出了一个通用模型的杰出候选者。它的外部接口——在代理、世界、行动、观察和奖励方面——是通用的、自然的,并在自然科学和工程中被广泛采用。代理的四个内部组成部分也各自具有悠久而广泛的多学科传统。本文中提出的一般模型可能会因其遗漏的内容而受到批评。例如,除了奖励之外,它没有明确的观察预测作用,也不涉及探索、好奇心或内在动机。所有四个组成部分都必须涉及学习,但这里我们仅以反应策略和一般术语描述学习。读者无疑会对通用模型中没有包含某些特征感到失望,并觉得这些特征的重要性被低估了。例如,我认为代理人为自己提出的辅助子任务(Suttonetal.2022)是代理人发展抽象认知结构的重要且未被充分认识的手段。然而,正是因为辅助子任务没有得到广泛认可,它们不应该出现在代理的一般模型中,也没有得到足够的跨学科认可。本文提出的通用模型代理的目的不是最好的和最新的,而是作为一个起点。它努力成为一个简单的设计,在许多学科中得到很好和广泛的理解。每当研究人员引入新的代理设计时,通用模型都旨在作为一个标准,可用于解释新设计与通用模型有何不同或如何扩展。