图灵奖获得者YannLeCun:未来几十年人工智能研究最大的挑战是“预测世界模型”。对此,Meta首席科学家、图灵奖获得者YannLeCun最近提出了一个新的想法:他认为让算法预测世界内在运行规律的“世界模型”将是关键。他的思想引起了人们的注意。在本周的一次线上活动中,LeCun花了一个小时介绍了自助式人工智能的新思路,并提出联合嵌入式预测架构(JEPA)是未来的发展方向。尽管人工智能研究最近取得了显着进展,但我们距离创造像人类一样思考和学习的机器还有很长的路要走。正如YannLeCun所说,一个从未驾驶过汽车的青少年可以在20小时内学会驾驶,但最好的自动驾驶系统需要数百万或数十亿的标记数据,或虚拟环境中的数字模拟。数百万次强化学习试验。即使付出所有这些努力,它们也无法像人类一样可靠地驾驶。我们如何构建接近人类表现的人工智能?更多的数据和更大的模型能解决这个问题吗?在MetaAI最近的InsidetheLab活动中,LeCun概述了构建人类级别AI的另一种愿景。他指出,学习“世界模型”——世界运作方式的内部模型——的能力可能是关键。原视频链接:https://www.youtube.com/watch?v=DokLw1tILlwPPT链接:https://drive.google.com/file/d/1Txb9ykr03Lda-oTLXbnlQsEe46V8mGzi/viewYannLeCun'sViewpointandKanaietal.信息生成理论非常一致——智能源于生成复杂的世界表征(包括反事实)的能力,尽管一些学者对此持否定态度。卡内基梅隆大学教授、前苹果AI研究主管RussSalakhutdinov对此评价:JoshTenenbaum和许多其他研究人员在十年前开始研究世界模型,当时我在他的实验室做博士后。所以当Facebook说他们正在研究基于世界模型的AI新愿景时,我觉得这听起来有点好笑。LeCun提出的方法能否成为通向通用人工智能的路径?前几天结合MetaAI的博客来看看LeCun的感想吧。AILeCun可以模拟世界的运作方式,他说人和动物似乎能够通过观察和难以理解的少量互动,以独立于任务、无监督的方式学习很多关于世界运作方式的背景知识。可以假设,这种积累的知识可能构成常识的基础。常识可以被认为是世界模型的集合,它们告诉我们什么可能发生、什么可能发生以及什么不可能发生。这使得人类即使在不熟悉的环境中也能有效地进行计划。比如文章开头提到的少年,以前可能没有在雪地上开过车,但他知道在雪地上开车很容易打滑,不应该开得太猛。常识不仅可以让动物预测未来的结果,还可以填补时间或空间上缺失的信息。当司机听到附近有金属碰撞的声音时,他会立即知道发生了事故,即使他没有看到涉事车辆。人类、动物和智能系统使用世界模型的想法可以追溯到几十年前的心理学和工程领域,例如控制和机器人技术。LeCun提出,当今人工智能面临的最重要挑战之一是设计学习范式和架构,让机器以自我监督的方式学习世界的模型,然后使用这些模型进行预测、推理和规划。他的大纲融合了认知科学、系统神经科学、最优控制、强化学习和“传统”人工智能等不同学科的观点,并将它们与机器学习中的新概念相结合,如自监督学习、联合嵌入架构。自主智能架构的提议LeCun提出了一个由六个独立模块组成的架构。假设每个模块都是可微分的,因为它可以很容易地计算出某个目标函数相对于它自己的输入的梯度估计,并将梯度信息传播到上游模块。上图是一个自主智能系统的架构,Configurator从其他模块获取输入(图中省略了那些箭头)。Configurator模块负责执行控制:给定一个要执行的任务,当前任务的感知模块、世界模型、代价和Actor。感知模块(Perceptionmodule)接收来自传感器的信号并估计世界的当前状态。对于给定的任务,只有一小部分感知到的世界状态是相关和有用的。配置器模块启动感知系统,从感知中提取相关信息,完成手头的任务。世界模型构成了架构中最复杂的部分。它的作用是双重的:(1)估计感知未提供的有关世界状态的缺失信息;(2)预测可能的未来世界状态。世界模型可以预测世界的自然演化,或预测由参与者模块提出的一系列动作导致的世界未来状态。世界模型是与当前任务相关的世界部分的模拟器。因为世界充满不确定性,模型必须能够代表各种可能的预测。例如,接近十字路口的驾驶员可能会减速,以防另一辆接近十字路口的车辆未能在停车标志处停车。成本模块计算单个标量输出,预测代理的不适程度。它由两个子模块组成:内在成本是硬连线的、不可变的(不可训练的),并计算即时不适(例如对代理的损害、违反硬编码的行为约束等);批判(critic)是一个可训练的模块,可以预测内在成本的未来值。代理的最终目标是最小化长期内在成本。“这就是基本的行为驱动力和内在动机所在,”LeCun说。因此,它将考虑内在成本,例如不浪费能源,以及手头任务的具体成本。因为成本模块是可微分的,成本梯度可以通过其他模块反向传播,用于规划、推理和学习。actor模块计算动作序列的建议。LeCun说:“演员可以找到一个最优的动作序列,使估计的未来成本最小化,并以类似于传统最优控制的方式输出最优序列中的第一个动作。”短期记忆模块跟踪当前和预测的世界状态以及相关成本。世界模型架构和自我监督训练该架构的核心是预测世界模型。构建它的一个关键挑战是使其能够表示多个似是而非的预测。现实世界并非完全可预测:给定情况有多种可能的演变方式,而且情况的许多细节与手头的任务无关。我可能需要在开车时预测我周围汽车的运动,而无需考虑路边树木上个别树叶的详细位置。世界模型究竟应该如何学习世界的抽象表示,以便保留重要的细节,忽略不相关的细节,并可以在抽象表示的空间中进行预测?该解决方案的一个关键要素是联合嵌入式预测架构(JEPA)。JEPA捕获两个输入x和y之间的依赖关系。例如,x可以是一个视频,y可以是下一个视频。输入x和y被馈送到可训练的编码器,编码器提取它们的抽象表示,即s_x和s_y。训练预测器模块以根据s_x预测s_y。预测器可以使用潜在变量z来表示存在于s_y中但不存在于s_x中的信息。JEPA以两种方式处理预测中的不确定性:(1)编码器可能会选择丢弃关于y的难以预测的信息,(2)当潜在变量z在一个集合中变化时,预测将可能在以下范围内发生变化结果。那么JEPA是如何训练的呢?以前,唯一的方法是使用对比方法,包括显示匹配的x和y的示例,以及不匹配的许多x和y的示例。但当表示是高维时,这是非常不切实际的。过去两年出现了另一种训练策略:正则化方法。当应用于JEPA时,该方法使用四个标准:使x的表示提供关于x的最大信息量尽可能少的来自潜在变量的信息来表示预测中的不确定性。这些标准可以通过各种方式转化为可区分的成本函数。一种方法是VICReg(方差-不变-协方差正则化)方法。在VICReg中,x和y表示的信息内容通过将其分量的方差保持在阈值以上并使这些分量尽可能彼此独立来最大化。同时,该模型试图使y的表示可以从x的表示中预测出来。此外,通过使潜在变量离散、低维、稀疏或嘈杂,使它们的信息内容最小化。JEPA的美妙之处在于它自然地生成输入的信息丰富的抽象表示,去除不相关的细节,可用于执行预测。这允许JEPA相互堆叠,以便学习具有更高抽象级别的表示,可以执行长期预测。例如,一个场景可以在较高层次上描述为“厨师正在制作薄饼”。不出所料,厨师会取来面粉、牛奶和鸡蛋,混合配料,将面糊舀入锅中,煎炸面糊,翻转可丽饼,然后重复。在较低的层次上,用勺子倒水可以分解成舀一些面糊,然后把它铺在平底锅周围。这些过程每时每刻都可以被分解,细化到厨师手中每一毫秒的精确轨迹。在这种低水平的手部轨迹预测上,我们的世界模型只能在短时间范围内给出准确的预测。但在更高的抽象层次上,它可以做出长期预测。分层JEPA可用于在多个抽象级别和多个时间尺度上执行预测。分层JEPA主要通过被动观察进行训练,很少通过交互进行训练。在生命的头几个月,婴儿主要通过观察来了解世界是如何运作的。她了解到世界是三维的;有些物体在其他物体的前面;当一个物体被遮挡时,它仍然存在。最终,在大约9个月大时,婴儿学会了直觉物理,例如无支撑物体会因重力而下落的事实。LeCun和MetaAI希望分层的JEPA可以通过观看视频和与环境交互来了解世界是如何运转的。通过训练自己预测视频中会发生什么,JEPA将生成世界的层次表示。通过采取一些行动并观察结果,世界模型将学会预测其行动的后果,这将使其能够推理和计划。Perception-Actionepisode通过将分层JEPA训练为世界模型,agent能够执行复杂动作的分层规划,将复杂任务分解为一系列不那么复杂和不那么抽象的子任务,直到对效应器低级动作进行分解。下图是典型的感知-动作情节。该图说明了两级层次结构的情况。感知模块提取世界状态的层次表示(对应图中的s1[0]=Enc1(x),s2[0]=Enc2(s[0]))。然后,在给定第二层参与者提出的一系列抽象动作的情况下,多次应用第二层预测器来预测未来状态。演员优化第二层的动作序列以最小化总成本(图中的C(s2[4]))。这个过程类似于最优控制中的模型预测控制(Model-PredictiveControl)。对第二层潜在变量的多个绘图重复该过程可能会产生不同的高级场景。由此产生的高级动作虽然不构成真正的动作,但定义了低级状态序列必须满足的约束。这也构成了一个子目标。整个过程在下层重复:运行低层预测器,优化下层动作序列以最小化上层的中间成本,并对下层潜在变量的多次绘制重复该过程。一旦过程完成并且代理向效应器输出第一个低级动作,就可以重复整个情节。如果能够成功构建这样的模型,那么所有模块都将是可微的,因此整个运动优化过程可以使用基于梯度的方法来执行。AILeCun的更接近人类智能水平的愿景仍然存在许多艰巨的挑战。最有趣和最困难的挑战之一是实例化世界模型架构和训练过程的细节。在某种程度上,训练世界模型将是未来几十年人工智能取得真正进步的主要挑战。然而,世界模型架构的许多方面仍有待定义,包括如何准确地训练评论家、如何构建和训练配置器、如何使用短期记忆来跟踪世界状态和存储历史状态等等。创造像人类一样高效学习和理解的机器是一项长期的科学努力,并且不能保证成功。但基础研究将继续加深机器对世界的理解,推动整个人工智能领域的发展。
