当前位置: 首页 > 科技观察

RichardSutton:经验是AI的终极数据,四个阶段导致真正的AI发展

时间:2023-03-13 11:40:17 科技观察

简介:强人工智能的发展是近几年备受关注的话题。让人工智能从人类的感知和行为中学习,而不是简单地标记数据,成为了很多研究者关注的焦点。其中,如何利用人类获得的日常生活经验来启发和构建能够适应不同环境并与外界交互的人工智能,成为一些领域探索的新途径。被誉为强化学习之父的理查德萨顿最近提出了用经验来启发人工智能发展的想法。他将人工智能从使用数据到使用经验的过程分为四个发展阶段,并提出未来构建真正的人工智能(RealAI)的发展方向。2022年5月31日,RichardSutton在2022北京致远大会上发表了题为“TheIncreasingRoleofSensorimotorExperienceinAI”的主题演讲,总结并展望了用经验激发AI发展的方法。演讲者简介:RichardSutton,现代计算强化学习的奠基人之一,DeepMind杰出研究科学家,阿尔伯塔大学计算科学系教授,皇家学会会员,英国皇家学会加拿大人工智能促进协会、阿尔伯塔机器智能研究所(AMII)和CIFAR的会员。01.背景:经验对智力发展的意义萨顿认为,智能体与外部世界进行交互,向其发送动作,并接收感知(反馈)。这种涉及经验的交互是强化学习中正常的感知方式。这也是代理尝试预测外部世界的正常方式。然而,这种方法在监督学习中很少见,监督学习是目前最常见的机器学习类型。普通经验不参与机器学习,模型不从不同于普通经验的特殊训练数据中学习。事实上,在运行时,监督学习系统根本不学习。因此,体验是交互(带)的数据,是与外界沟通的方式。经验没有意义,除非它与其他经验相关。当然,有一个例外:通过特殊信号指示的奖励。奖励代表好的目标,agent当然想要最大化奖励。萨顿在演讲中提出了一个核心问题:智能到底可以解释什么?它们是客观术语还是经验术语?前者包括外部世界的状态、目标、人、地点、关系、空间、动作、距离等agent中没有的东西,而后者包括agent内部的东西,如感知、动作、奖励、和时间步长。Sutton认为,虽然研究人员在交流和撰写论文时通常会考虑客观概念,但现在应该更多地关注智能体与外部世界交互所产生的体验。为了进一步向代理人介绍经验的重要性,RichardSutton提出随着经验逐渐被重视,它经历了四个阶段。它们是:Agenthood、Reward、ExperientialState和PredictiveKnowledge。通过这四个发展阶段,人工智能逐渐积累经验,变得更实用、更易学习、更容易扩展。02.AI开发过程中的体会1.代理人(Agenthood)代理人的意思是拥有/获得经验(AI)。也许令人惊讶的是,早期的人工智能系统真的没有任何经验。在人工智能发展的早期阶段(1954-1985),大多数人工智能系统只是用来解决问题或回答问题,没有感知,也没有行动。机器人是个例外,但传统系统只有一个开始状态和一个目标状态,就像下图中要堆叠的方块。如果要达到正确的目标状态,解决方案是确保AI可以从起始状态到达目标状态的一系列动作。这里面没有感知和行动,因为整个外部世界是已知的、确定的、封闭的,所以不需要AI去感知和行动。研究人员知道会发生什么,所以他们只需要构造一个解决问题的计划,让人工智能执行它,人类就知道它可以解决问题。在过去30年的发展中,人工智能的研究主要集中在构建智能体上。这种转变可以从以下事实中看出:人工智能的标准教科书将代理的概念作为基础。例如1995版的《人工智能:一种现代的方法》中提到,全书统一的主题是介绍智能代理(IntelligentAgent)的概念。从这个角度来看,人工智能的问题就是描述和构建代理,并从环境中获取知识并采取行动。随着研究的进展,标准的现代方法是构建一个能够与外部世界交互的代理。萨顿认为可以从这个角度来看待人工智能。2.奖励(Reward)奖励(Reward)以体验的形式描述了AI的目标。这也是目前提出的一种有效的方法,能够构建AI的所有目标。这也是Sutton及其合作者提出的方法。奖赏在目前被认为是一个相对充分的假设——智力及其相关能力可以理解为服务于最大化奖赏的结果。所以说对于agent来说,reward就够了。不过,萨顿认为,这种思路需要受到挑战。奖励不足以实现智能。Reward只是一个数字,一个标量,不足以说明智能的目标。头脑之外的目标,用单个数字表示,似乎太小、太简化,甚至太贬低(人类目标)。人类喜欢想象更大的目标,比如照顾家庭、拯救世界、世界和平、让世界变得更美好。人类目标比最大化幸福和舒适更重要。正如研究人员发现奖励不是建立目标的好方法一样,研究人员也发现了通过奖励建立目标的优势。建立奖励的目标太小,但人们可以在其中取得进步——目标可以很好、明确定义并且易于学习。这对于通过经验来构建目标来说是一个挑战。根据Sutton的说法,很难想象通过经验完全构建目标。回顾历史,AI最初对奖励不感兴趣,即使是现在也是如此。因此,无论是早期的问题求解系统,还是最新版的AI教科书,仍然将目标定义为需要实现的世界状态(WorldState),而不是经验性的(definition)。这个目标可能仍然是一系列特定的“构建块”,而不是要实现的预期结果。当然,最新的教科书已经有强化学习的章节,并提到这些人工智能使用奖励。此外,奖励是构建目标的常规做法,可以使用马尔可夫决策过程来实施。对于批评奖励不能充分建立目标的研究人员(如YannLeCun)来说,奖励已经是智力“蛋糕”上的“樱桃”,非常重要。在接下来的两个阶段中,萨顿将描述外部世界应该如何从经验上理解,但在此之前,他将首先介绍经验指的是什么。3.插曲:什么是体验?如下图的序列(非真实数据)所示,当时间步开始时,系统会得到一个感知信号,同时也会发出信号和动作。因此,感知到的信号可能会导致某些动作,而该动作会导致下一个感知到的信号。在任何给定时间,系统都需要关注最近的动作和最近的信号,以便决定接下来会发生什么以及应该如何做。如图所示,这是一个代理执行程序的输入输出信号数组。第一列是时间步长,每一步可以认为是0.1秒或0.01秒的一个瞬间。动作信号栏用两级系统表示,用灰色和白色两种颜色表示。然后是感官信号列,其中前四列是二进制值(同样使用灰色和白色),后四列使用从0-3的四个值,用红黄蓝四种颜色表示和绿色,最后一列是连续变量,代表奖励。在实验中,研究人员去掉了数字,只留下颜色,这样他们就可以在其中寻找模式。根据Sutton的说法,经验是指对在感觉运动经验数据中发现的模式的知识和理解。在这种情况下,Sutton列举了四种典型模式:1.动作的最后一位与紧随其后的感知信号相同。如果某个时间步的动作是白色的,那么之后的第一个感官信号也是白色的,灰色也是如此。2.当出现红色像素时,下一个时间步是绿色像素。扩大数据范围后可以发现,红色像素和绿色像素依次出现后,每隔一个时间步长就会出现蓝色像素。3.最后三列数据往往有一长串相同颜色的数据,保持不变。一旦一种颜色开始出现,它会持续多个时间段,最终形成条纹。比如一长串红色、绿色、蓝色等。4.如果展示AI预测的具体感知数据,很多情况下无法立即观察到,所以在这个数据上加上返回值(Return),代表对即将到来的奖励的预测。框中的绿色带表示后续奖励将比红色更绿色。这代表当前对奖励的预测。特殊的阴影区域表示等待功能。wait函数的阴影区域会有绿带和红带。在这里,研究人员将对较早返回的颜色奖励给予更高的权重。当返回值随时间移动时,您可以看到预测结果与实际奖励之间颜色和值的相应变化。这个返回值是一个预测——它可以从经验中学习。根据Sutton的说法,这个返回值本身并不是从已经发生的事件中学习到的,而是从时间差信号中学习到的。最重要的信号之一是价值函数。在这种情况下,返回值实际上是一个价值函数,表示未来奖励的总和。如果你想要一个可以引用未来值的复杂函数的一般形式,你可以使用称为通用值函数(GeneralValueFunctionsGVFs)的方法。通用价值函数包括各种信号,而不仅仅是奖励;它可以是任何时间包络,而不仅仅是指数。通用价值函数还可以包含任何队列的策略,可以预测数量非常多、范围很广的东西。当然,Sutton认为,计算预测的难易程度取决于被预测对象的形式。当使用通用值函数进行预测时,需要将预测对象的表示设计得易于学习,并且需要较高的计算效率。4.经验状态提到“状态”这个词,很多研究都会提到世界状态(WorldState),这是客观概念下的一个词。状态是指对客观世界的一种符号描述(反映),它能与世界本身的情况相匹配。例如,对于积木的位置信息(C在A上)等。最近,一些研究人员(如JudeaPearl)提出了概率图形模型,它表示世界状态的概率分布。一些事件,比如“外面下雨了,草地湿了吗?”等等,这些事件之间存在概率关系。另一种状态是信念状态(BeliefState)。在这个概念中,状态是代表离散世界状态的概率分布。对应的方法称为POMDPs(PartiallyobservableMarkovdecisionprocess)——有隐藏的状态变量,其中一些是可观察的,可以使用马尔可夫决策过程建模。上述方法都是客观状态,与经验相去甚远,是研究者一开始试图描述世界状态的方法。不同的是体验状态。在萨顿看来,经验状态指的是根据经验定义的整个世界的状态。经验状态是对过去经验的总结,可以预测和控制未来将要获得的经验。这种构建过去经验和预测未来的做法已经在研究中有所体现。例如,在强化学习任务之一的Atari游戏中,研究人员会使用视频的最后四帧来构建体验状态,然后预测后续行为。LSTM网络中的一些方法也可以被认为是根据一些经验状态做出预测。回顾一下体验状态,可以递归更新。经验状态是总结过去发生的事情的功能。由于AI每时每刻都需要访问体验状态来实现对下一个事件的预测,所以体验状态的更新是递归的:当前时刻只访问前一时刻的体验状态,上一时刻的体验状态moment是所有过去事件的总结。下一刻,只能访问此刻的体验状态,而这个体验状态也是对过去发生的所有事件的总结。下图展示了智能体体验状态的构建过程。其中,红色箭头表示agent的基本工作信号,包括:feeling、action、reward等。蓝色箭头表示体验状态(representation)的方向,由感知输出,负责更新其体验每个时间步的状态。更新后的状态用于制定行动战略或进行其他更新。5、预测性知识知识,如“乔·拜登是美国总统”、“埃菲尔铁塔在巴黎”等,是对外部客观世界的描述,而不是经验性的。然而,像“估计需要X小时做某事”这样的知识是经验知识。经验知识与客观知识之间存在巨大差异,这也是人工智能研究的挑战点。以前的人工智能研究倾向于将知识视为客观项目,尽管最近的一些研究从实证的角度来看待这个问题。早期的人工智能系统没有经验,因此无法做出预测。而更现代的人工智能将知识视为客观存在。更高级的是概率图模型,但很多时候它研究的是两个同时发生的事件之间的概率,预测应该是面向一系列顺序事件的。基于序列事件的预测是具有显式语义属性的知识。如果预测某事会发生,人工智能可以将预测与实际结果进行比较。而这种预测模型可以认为是一种新的世界知识,即预测知识。在预测知识方面,萨顿认为最前沿的是一般价值函数(GeneralValueFunction)和期权模型(OptionModel)。萨顿将世界知识分为两类,一类是关于世界状态的知识;另一个是关于世界状态转换的知识。关于世界状态转换的知识示例是世界预测模型。这里的世界预测模型不是马尔可夫决策过程,也不是基本形式的差分方程。它可以是一个抽象的状态,可以从经验状态中提取出来。由于预测是以整个行为为条件的,在选择模型中,agent也可以选择停止某种策略,终止某种条件。有时,使用旋律的传输模型,可以预测执行动作后的状态。以日常生活为例,假设某人要去城市,他/她会对到市中心的距离和时间做出预测,并进一步预测超过一定阈值的行为(如走进城市10分钟)脱离状态,如疲劳等。有了这种可以扩展行为的模型,其知识表示的规模也可以非常大。例如,你可以根据一个动作预测世界的状态,然后根据状态预测下一个动作……等等。总结经验在人工智能研究中的发展历程,萨顿表示,经验是世界知识的基础,人类通过感知和行动来认识和影响世界。经验是人类获取信息和采取行动的唯一途径,与人类密不可分。遗憾的是,由于体验过于主观和个人化,人类仍然不喜欢根据体验来思考和表达。经验对于人类来说过于陌生、违反直觉、转瞬即逝且复杂。经验也是主观的和个人的,几乎不可能与他人交流,或验证它。根据Sutton的说法,经验对AI很重要,原因有几个。一是经验来源于AI的日常运行过程,获取这些经验是免费的、自动的。同时,AI领域有大量的数据用于计算,所以经验提供了认识世界的途径,如果世界上有任何事实是经验性的,那么AI就可以从经验中学习认识世界,并在experience中验证。综上所述,Sutton认为,在过去70年的AI发展过程中,AI逐渐增加了对体验的重视——获取体验,根据体验设定目标,根据体验获取状态和知识。在每一个阶段,对人类陌生的经验的研究都变得越来越重要,并且具有接地气、可学习和可扩展的优势。03、未来AI对经验的利用方式Sutton认为,在经验利用方面,AI还没有完成第三、第四阶段,但这个趋势会越走越远。Sutton认为,将一切简化为体验是通向真正AI的可行途径。尽管非常具有挑战性,但这就是能够理解数据流并实现智能化的图景。最后,Sutton将强调感觉运动体验的四个阶段进一步凝练,形成了一个口号:“数据驱动人工智能,而体验才是最终的数据。如果我们能够利用好体验,就能更快、更快速地推动人工智能的发展。”有力地。””