当前位置: 首页 > 科技观察

元“世界模式”被质疑:10年前就有!LeCun:关键在于构建和训练

时间:2023-03-13 05:42:19 科技观察

2月24日,Meta在“春晚”上介绍了首席科学家YannLeCun提出的构建人类级别AI的又一愿景。LeCun说,AI学习“世界模型”——世界运作方式的内部模型——的能力可能是关键。不过,文章一出,就遭到不少业内人士的质疑。这不是早就存在的东西了吗?自1960年代以来?多伦多大学副教授丹·罗伊指出,“我好像记得乔什·特南鲍姆确实提到过世界模型,当然,我可能是错的。”卡内基梅隆大学计算机科学教授、苹果公司人工智能研究前主管RussSalakhutdinov跟帖表示:“十年前我在做博士后研究的时候,JoshTenenbaum和很多人已经在世界上工作了模型。所以今天Facebook说他们要描述一个基于AI的世界模型,我觉得很好笑。“甚至有网友搬出JürgenSchmidhuber在1990年发表的一篇论文,其中包括对世界模型的介绍.论文地址:https://mediatum.ub.tum.de/doc/814960/file.pdf另一位热心网友附上了他2018年在NIPS上发表的世界模型论文的链接。论文地址:https://arxiv.org/abs/1809.01999项目地址:https://worldmodels.github.io/当然,还有更夸张的网友直接表示,“大概率是它不会成功的。”被推到了风口浪尖的LeCun只好自己结束:这跟Facebook没关系,是我提议的,应该是Meta。他说,“确实有很多人几十年来一直在谈论世界模型,从1960年代的控制论开始。但概念不是关键,关键是如何建立和训练世界模型。”即,如何让世界模型学习分层表示,并进行分层规划。我认为这里的创新是使用联合嵌入式预测架构(JEPA)在表示空间中进行预测。JEPA有几个特点:非生成的——输出是加密的,细节被省略。非概率-基于能量,不可归一化。非对比训练(使用VICR)我认为第一个和第二个特征很可能会违反Josh的贝叶斯定理。不过,也有网友认同LeCun的说法。“培训确实是个问题,”他说。对于离开原来的工作去研究世界模型的人来说,他们可能会从物理学家、控制理论家和人工智能的角度来构想,所以这些角度几乎无法帮助他们做任何事情……即使你造了一台机器并学习了一些领域——特定的世界模型,但你仍然很难做出一个现象级的软件。“什么是‘世界模型’?”人类根据他们有限的感官所能感知的事物来构建世界模型。之后,人类所做的所有决定和行动都将基于这个内部模型。而这个模型不仅仅是预测一般的未来,而是根据我们当前的动作和行为来预测未来的感官数据。当面临危险时,人类能够根据这种预测模型本能地采取行动,并在没有有意识地计划行动过程的情况下进行快速的反身行为。人类所看到的是基于大脑对未来的预测LeCun指出:“人类通过观察,以任务独立和无监督的方式学习世界如何运作的背景知识。可以假设,这种累积的知识可能形成以通常所说的常识为基础。”常识可以被认为是世界模型的集合,可以指导代理人采取哪些行动是可能的、合理的和不可能的。这使人类能够在不熟悉的情况下有效地预先计划。例如,一个十几岁的司机可能从来没有开车之前在雪地上,但他预测雪会很滑,如果开得太猛,汽车会失控。常识知识让聪明的动物不仅可以预测未来事件的结果,还可以填补缺失的信息时间或空间。当司机听到附近有金属碰撞声时,即使他没有看到碰撞现场,他也能立即知道发生了碰撞。就像第一次靠左行驶的人不会需要重新学习如何打方向盘,物理定律不会改变,这是一个“世界模型”的例子早期工作早在1990年,研究人员就开始尝试建立一个可以学习世界的智能体代表离子完全靠自己。Schmidhuber的模型表明代理可以从世界接收奖励R和输入IN。输入经过网络处理后,模型会分别预测世界和未来的奖励——PREDIN,PREDR。最后,通过OUT输出动作。也就是说,代理的未来奖励和输入是使用世界模型预测的。Schmidhuber的模型遵循压缩神经表征的思想,这也是归纳推理的关键,即从少量样本中学习,这通常被认为是一种智能行为。然而,Schmidhuber在这种方法中缺乏的是如何分析智力和意识的理论。在2018年的论文中,Schmidhuber再次提出了一个受人类认知系统启发的简单模型。在这个模型中,代理有一个视觉感官组件,可以将它看到的内容浓缩成一个小的代码表示。还有一个记忆组件可以根据历史信息对未来的代码进行预测。最后有一个决策组件,它仅根据其视觉和记忆组件创建的表示来决定采取什么行动。智能体由三个部分组成:视觉(V)、记忆(M)和控制器(C)。在这项工作中,Schmidhuber首先训练一个大型神经网络以无监督的方式学习代理的世界模型,然后训练一个较小的控制器模型以学习使用这个世界模型来执行任务。除其他外,控制器让训练算法专注于小搜索空间上的信用分配问题,而不会牺牲大世界模型的能力和表现力。通过世界模型的视角进行训练后,Schmidhuber证明代理可以学习高度紧凑的策略来执行其任务。自主智能架构LeCun在他的“世界模型”中提出了一个由六个独立模块组成的架构。配置器模块负责控制任务分配和调整。感知模块负责接收来自传感器的信号并估计世界的当前状态。世界模型模块的作用有两点:(1)补充感知模块没有提供的信息;(2)预测一个合理的未来状态。代价模块负责计算和预测agent的不当行为。它由两部分组成:(1)Intrinsiccost,直接计算“不适”:对agent的损害,违反硬编码行为等;(2)Evaluator,预测内在成本的未来价值。actor模块负责建议动作序列。短期记忆模块负责跟踪当前和预测的世界状态以及相关成本。自主智能架构自我监督训练的核心是预测世界模型。构建它的关键挑战是如何让它呈现多种可能性的预测。现实世界并不是完全可以通过单一方式预测的,给定情况的演变有许多可能的路径,而且情况的许多细节与手头的任务无关。人类司机可能需要预测他周围的汽车在驾驶时会做什么,而不是路边树上个别树叶的详细位置。世界模型如何学习现实世界的抽象表示,保留关键细节,忽略不相关的细节,并在抽象表示的空间中进行预测?该解决方案的一个关键要素是联合嵌入式可预测架构(JEPA)。JEPA可以捕获两个输入数据x和y之间的依赖关系。例如,x可以是一个视频,y可以是下一个视频。输入数据x和y被馈送到可训练的编码器,编码器提取它们的抽象表示,即sx和sy。JEPA通过两种方式处理预测中的不确定性:(1)编码器可能会丢弃关于y的难以预测的信息,以及(2)当潜在变量z在一组中发生变化时,会导致预测结果发生变化在集合上。那么,JEPA是如何训练的呢?直到最近,唯一的方法是使用对比方法,即提供足够的x和y兼容、x兼容但y不兼容以及x不兼容但y兼容的示例。但是当抽象表示达到高维时,这种方法是不切实际的。过去两年出现了另一种训练策略:正则化方法。当应用于JEPA时,该方法使用四个标准:制作关于x的表示,提供关于x的最大信息量制作关于y的表示,提供关于y的最大信息从关于x的表示,提供最大信息预测器从潜在变量中调用尽可能少的信息来表示预测中的不确定性。这些准则可以通过VICReg,即“方差、不变、协方差正则化”方法转化为可微分的代价函数。其中,最大化x和y所代表的信息内容的方法是保持其分量的方差在阈值以上,并尽可能使这些分量相互独立。同时,该方法试图使y的表示可以从x的表示中预测,同时潜变量的信息内容以使其离散、低维、稀疏或噪声的方式最小化。JEPA的美妙之处在于它自然地生成关于输入信息的抽象表示,消除不相关的细节,基于这些可以执行预测。这允许JEPA相互堆叠,以学习具有更高抽象级别的表示,可用于执行长期预测。例如,一个场景可以在较高层次上抽象地描述为“厨师正在制作薄饼”。因此,人类的智能可以预测:厨师会取面粉、牛奶和鸡蛋;混合配料;将面糊舀入锅中;让面糊炒;翻转煎饼;重复这个过程。在较低层次上,人类智能可以预测:舀面糊的动作,包括用勺子舀面糊,倒入锅中,将面糊铺在锅面上。这种松弛程度会持续到厨师手在毫秒内的精确轨迹。在低水平的手部轨迹上,“世界模型”只能在短期内做出准确的预测。但在更高的抽象层次上,它可以做出长期预测。多层JEPA可用于在多个抽象级别和多个时间尺度上执行预测。训练的主要渠道是被动观察,次要渠道是与环境互动。就像最初几个月的婴儿主要通过观察来了解世界是如何运转的一样。她了解到世界是三维的,一些物体排在其他物体前面,当一个物体被遮挡时它仍然存在。最终,在大约9个月大的时候,婴儿学会了直觉物理学——例如,无支撑的物体会因重力而下落。多层JEPA承诺通过类似地观看视频、与环境互动等方式来了解世界的运作方式。通过自我训练来预测视频中会发生什么,它将产生世界的层次表示。通过在现实世界中采取行动并观察结果,“世界模型”将学会预测其行动的后果,这将使其能够进行推理和计划。在LeCun看来,我们应该让机器通过观察来学习现实世界最基本的规律,这是机器学习世界模型的最重要途径。对于当今的人工智能,最重要的挑战之一是设计能够对世界模型进行自我监督学习的学习范式和架构,然后使用这些模型进行预测、推理和规划。或许,这个概念并没有想象中那么“新”,但要真正应用到实践中,可能还有很长的路要走。