几十年来,在人工智能领域,计算机科学家设计和开发了各种复杂的机制和技术,以再现视觉、语言、推理和运动技能等智能能力.尽管这些努力使人工智能系统能够有效地解决有限环境中的特定问题,但尚未开发出类人和类动物的智能系统。人们把具有与人类同等智能或超越人类智能的人工智能称为通用人工智能(AGI)。这种系统被认为能够执行人类所能执行的任何智能任务,是人工智能领域的主要研究目标之一。对通用人工智能的研究正在进行中。最近,在一篇名为《Reward is enough》的论文中,强化学习巨头DavidSilver、RichardSutton等人提出将智力及其相关能力理解为促进奖励最大化。论文地址:https://www.sciencedirect.com/science/article/pii/S0004370221000862该研究认为奖励足以驱动自然界和人工智能领域研究的智能行为,包括知识、学习、感知、社会智能、语言、一般适应和模仿的能力,研究人员认为利用奖励最大化和试错经验足以发展出智能行为。因此,他们得出结论,强化学习将促进通用人工智能的发展。通往AI的两条路径创建AI的一种常见方法是尝试在计算机中复制智能行为的元素。例如,我们对哺乳动物视觉系统的理解导致了各种人工智能系统的出现,这些系统可以对图像进行分类、在照片中定位物体、定义物体的边界等等。同样,我们对语言的理解帮助开发了各种自然语言处理系统,例如问答、文本生成和机器翻译。但这些都是狭义人工智能的例子,系统旨在执行特定任务而不是一般的问题解决能力。一些研究人员认为,组装多个窄人工智能模块将产生更强大的智能系统,用于解决需要多种技能的复杂问题。在这项研究中,研究人员认为创造通用人工智能的方法是重新创造一个简单但有效的规则。该研究首先假设奖励最大化的总体目标足以驱动自然智能和人工智能中的至少大多数智能行为。’这基本上就是大自然本身的运作方式。数十亿年的自然选择和随机变异使生物体不断进化。能够应对环境挑战的生物得以生存和繁殖,而其余的则被淘汰。这种简单而有效的机制使生物体能够进化出感知、生存、改变环境以及相互交流的技能和能力。“人工智能代理未来将面临的环境,就像人类面临的自然世界一样,本质上非常复杂,它们需要复杂的能力才能在这些环境中成功生存,”研究人员说。以最大化衡量的成功需要代理展示相关的智能能力。从这个意义上说,奖励最大化的总体目标包含许多(可能是所有)智能目标。此外,研究人员认为,最大化奖励的最普遍和可扩展的方法是通过与环境交互学习的代理。奖励就足够了与许多AI交互方法一样,强化学习遵循一种协议,该协议将问题分解为两个随时间顺序交互的系统:一个做出决策的代理(解决方案)和一个受这些决策影响的代理。环境问题)。这与可能考虑多个代理、多个环境或其他交互模式的其他专用协议形成对比。基于强化学习的想法,这项研究认为奖励足以表达各种各样的目标。多种形式的智能可以理解为有利于最大化相应的回报,而与每种形式的智能相关的能力都可以在追求回报的过程中隐含地显现出来。因此,研究假设所有智力和相关能力都可以理解为一个假设:“奖励足够”。智能及其相关能力可以理解为智能体在其环境中的行为奖励的最大化。这个假设很重要,因为如果它是正确的,一个奖励最大化的智能体可以在服务于它的目标的过程中隐含地产生与智能相关的能力,而一个具有出色智能的智能体将能够“适者生存”。研究人员通过以下方式解决“奖励足够”的假设。知识和学习本研究将知识定义为代理的内部信息,例如,知识可以包含在用于选择动作、预测累积奖励或预测未来观察特征的函数的参数中。有些知识是先验知识,有些知识是通过学习获得的。奖励最大化代理将根据环境情况(例如自然代理的进化和人工代理的设计)整合前者,并通过学习获得后者。随着环境的不断丰富,需求天平会越来越倾向于学习知识。感知人类需要各种感知能力来积累奖励,比如区分朋友和敌人、驾驶时的场景分析等。这可能需要多种感官方式,包括视觉、听觉、嗅觉、体感和本体感觉。与监督学习相比,在奖励最大化方面考虑感知可能最终支持更广泛的感知行为,包括具有挑战性和现实的感知形式,如下所示:行动和观察通常以多种感知方式交织在一起,例如触觉感知、视觉扫视、物理实验、回声定位等;感知的效用通常取决于代理人的行为;获取信息可能有显性和隐性成本;数据的分布通常是依赖于上下文的,在丰富的环境中,潜在的数据多样性可能远远超过代理的能力或已经存在的数据量——这需要从经验中得出感知;许多感知应用无法访问标记数据。社交智能社交智能是理解其他代理人并与其他代理人有效互动的能力。根据本研究的假设,社会智能可以理解为最大化代理环境中代理的累积奖励。遵循这个标准的代理环境协议,代理观察其他代理的行为并可能通过其行为影响他们,就像它观察和影响环境的其他方面一样。能够预测和影响其他代理人行为的代理人通常会获得更大的累积奖励。因此,如果一个环境需要社会智能(例如包含动物或人类的环境),奖励最大化将能够产生社会智能。语言语言一直是自然智能和人工智能领域大量研究的主题。由于语言在人类文化和互动中起着主导作用,因此智能的定义本身往往预设了理解和使用语言,尤其是自然语言的能力。然而,目前的语言建模本身不足以生成更广泛的与情报相关的语言能力,包括:通过视觉和其他感官方式进行感知。此外,语言中常穿插着其他表达行为,如手势、面部表情、语调变化等。语言是有目的的,可以对环境产生影响。例如,销售人员学习调整他们的语言以最大化销售。语言的具体含义和效用随着代理人的情况和行为而变化。例如,矿工可能需要有关岩石稳定性的语言,而农民可能需要有关土壤肥力的语言。此外,可能存在语言的机会成本,例如讨论农业的人不一定从事农业)。在丰富的环境中,语言处理不可预见事件的潜在用途可能超过任何语料库的能力。在这些情况下,可能需要根据经验动态地解决语言问题。示例包括开发新技术或寻找解决新问题的方法。该研究认为,基于奖励就足够的假设,丰富的语言技能,包括所有这些更广泛的能力,应该源于对奖励的追求。泛化泛化能力通常被定义为将一个问题的解转化为另一个问题的解的能力。例如,在监督学习中,泛化可能侧重于将从一个数据集(如照片)中学习到的解决方案转移到另一个数据集(如绘画)。根据该研究的假设,泛化可以通过在代理与单个复杂环境之间的连续交互流中最大化累积奖励来实现,同样遵循标准的代理环境协议。像人类世界这样的环境需要泛化,因为代理在不同的时间面临环境的不同方面。例如,一只吃水果的动物可能每天都会遇到一棵新树,而且该动物也可能受伤、遭受干旱或面临入侵物种。在每种情况下,动物都必须通过概括过去状态的经验来快速适应新状态。动物面临的不同状态并没有被整齐地划分为具有不同标签的任务。相反,状态取决于动物的行为,这些行为可能结合了在不同时间尺度上重复出现的各种元素,从而可以观察到状态的重要方面。丰富的环境还要求代理从过去的状态概括为未来的状态,以及所有相关的复杂性,以便有效地积累奖励。模仿模仿是与人类和动物智能相关的重要能力,它可以帮助人类和动物快速获得其他能力,如语言、知识和运动技能。在人工智能中,模仿通常表示为通过行为克隆从演示中学习,当给出关于教师的行为、观察和奖励的明确数据时。相比之下,通过观察学习的自然能力包括从观察到的其他人或动物的行为中学习的任何形式,并且不需要直接获得教师的行为、观察和奖励。这表明在复杂环境中可能需要比通过行为克隆直接模仿更广泛和现实的观察学习能力,包括:包含教师数据的数据集;一个代理可能需要学习它自己的状态和另一个代理的状态之间的关联,或者一个代理自己的行为和另一个代理的观察之间的关联,这可能会导致更高层次的抽象;其他代理人可能只能部分观察到,因此他们的行为或目标可能只能不完全地推断出来;其他代理人可能会表现出应避免的不良行为;环境中可能有许多其他代理人,表现出不同的技能或不同水平的能力。该研究认为,从个体代理人的角度来看,这些更广泛的观察学习能力可能是由奖励最大化驱动的,个体代理人只是将其他代理人视为其环境的组成部分,这可能会导致许多与行为克隆相关的问题。同样的好处。示例包括样本有效的知识获取,但这需要更广泛和更全面的背景。通用智能基于本研究的假设,通用智能可以理解为通过在单一复杂环境中最大化特定奖励而实现的。例如,自然智能在其整个生命周期中都以与自然世界互动所产生的持续不断的体验为导向。动物的经验流足够丰富多样,它可能需要灵活的能力来实现各种各样的子目标(例如觅食、战斗、逃跑等),以便成功地最大化其总体奖励(例如饥饿或繁殖)。同样,如果AI代理的经验流足够丰富,单个目标(如电池寿命或生存)可能隐含地要求能够实现同样广泛的子目标,因此奖励最大化应该足以产生一种通用人工智能.强化学习代理这项研究的主要假设是,智能及其相关能力可以理解为促进奖励最大化,而与代理的性质无关。因此,如何构建最大化奖励的代理是一个重要的问题。研究认为,这个问题也可以通过问题本身来回答,即“奖励最大化”。具体来说,研究人员设想了一个具有一般能力的代理人,然后学习如何从他们与环境互动的持续经验中获得最大回报。这种代理称为强化学习代理。在最大化奖励的所有可能解决方案中,最自然的当然是通过与环境互动从经验中学习。随着时间的推移,这种互动体验会提供有关因果关系、行为后果以及奖励如何累积的大量信息。与其预先确定代理的行为(相信设计者对环境的预知),不如赋予代理发现自身行为的一般能力(信任经验)。更具体地说,最大化奖励的设计目标是通过从经验中学习奖励最大化行为的持续内部过程来实现的。奖励真的够用吗?对于该研究“奖励就够了”的观点,有网友表示不以为然:“这似乎是对个人效用函数这一普遍概念的再语境化。所有生物都具有效用函数,它们的目标是最大化自身效用。效用理论有着深厚的历史渊源,但本文对效用理论了解不多。Silver和Sutton都是RL领域的大腕,但对我来说,这篇论文感觉很糟糕。”有网友认为这是对进化论的重新包装:甚至有人质疑“受人尊敬的研究人员更容易陷入过度自信”:有网友表示:“这篇文章没有设定什么可以做什么,什么不能做任何界限。”在不直接分析函数的情况下尝试最大化函数时,难道不能知道什么可以发生什么不能发生吗?奖励函数,结合获取这些奖励的系统,完全决定了“可能”行为的空间,不管是什么,对他们来说都是智能行为。然而,也提出了一个合理的问题:最终目标奖励是否产生一般智力,或一些额外的信号?纯奖励信号会卡在局部最大值吗?他们的论点是,对于一个非常复杂的环境,它不会。但是如果你有一个足够复杂的环境,模型有足够的参数,并且你不会陷入局部最大值,那么一旦系统解决了问题的琐碎,简单的部分,提高性能的唯一方法就是创造更多general解决方案是变得更聪明。
