当前位置: 首页 > 科技观察

YannLeCun最新专访:能量模型是自主人工智能系统的起点

时间:2023-03-14 09:47:46 科技观察

本文转载自雷锋网。继自监督学习之后,YannLeCun对ZDNet的最新采访重点关注了他几年前大肆宣传的一个概念:“基于能量的模型”。什么是能量模型?YoshuaBengio、IanGoodfellow和AaronCourville等人。将“概率函数”定义为“对一个随机变量或一组随机变量的描述,它呈现了状态的每一种可能可能性”,而能量模型简化了两个变量之间的一致性。借用统计物理学的概念,能量模型假设两个变量之间的能量在它们不相容时上升,在它们一致时下降。这消除了“归一化”概率分布时出现的复杂性。在机器学习领域,能量模型是一个“古老”的概念,至少可以追溯到1980年代。但近年来,越来越多的工作使能源模型变得更加可行。据ZDNet报道,近年来,随着对能量模型思考的深入,LeCun围绕这一概念发表了多场演讲,其中包括2019年在普林斯顿高等研究院的一次演讲。最近,LeCun描述了能量模型的研究现状两篇论文中的能量模型:一篇是LeCun和FacebookAILabs(FAIR)的同事去年夏天共同发表的“BarlowTwins”;Inria于今年1月在《VICReg》上联合发表。正如LeCun在采访中所说,他目前的研究与量子电动力学有一些有趣的相似之处,尽管那不是他的重点。他的重点是人工智能系统的预测能改进到什么程度。LeCun自己开发了一种称为“联合嵌入模型”的现代能量模型,他认为这种模型可以赋予深度学习系统“在抽象表示空间中进行预测”的“巨大优势”。根据LeCun的说法,此类模型为“预测世界的抽象表征”开辟了道路。抽象的预测能力是深度学习系统广泛的承诺。当系统处于推理模式时,这个抽象预测机器的“堆栈”可以分层生成规划场景。这个模型可能是实现LeCun心目中统一“世界模型”的重要工具,而这个统一“世界模型”将推动他心目中自主人工智能的实现。对性和图像、语音以及其他形式的输入数据之间的相关性进行建模以进行规划。以下是ZDNet和LeCun通过Zoom的对话实录,内容经过编辑:Self-supervisedlearningvs.UnsupervisedlearningZDNet:首先,为了帮助我们学习,请谈谈“自监督学习”和“无监督学习”。无监督学习和自监督学习有什么关系?YannLeCun:嗯,我认为自监督学习是一种特殊的无监督学习。术语无监督学习有点复杂,在机器学习的背景下没有很好的定义。一提到无监督学习,人们就会想到聚类算法和PCA(主成分分析),以及各种可视化方法。而自监督学习基本上是在尝试使用无监督学习的监督等价物:即使用监督学习方法,但在没有人工提供标签的情况下训练神经网络。例如,我们可以拍一段视频,给机器看一段视频片段,让它预测接下来会发生什么。或者你可以给机器看两个视频,然后问它这个视频是不是另一个视频的延续?我们要做的不是让机器预测后续,而是让它告诉你这两种场景是否兼容。或者向机器展示同一物体的两个不同视图并询问它,这两个东西是同一个物体吗?在您提供给系统的所有数据本质上都是输入数据的情况下,自监督学习本质上没有人工监督。ZDNet:近年来,您做了几次演讲,包括2019年在新泽西州普林斯顿高等研究院(IAS)的演讲,以及最近2月份由百度主办的关于基于能量的深度学习方法的演讲。这些基于能量的模型是无监督学习的自我监督部分吗?YL:是的。一切都可以在基于能量的模型中假设。假设我给你X和Y;X是观察值,模型应该捕获Y与X的相关性。例如,X是一段视频,Y是同一视频的另一段,向系统显示X和Y,系统应该告诉我Y是否是X的延续。或者如果我给系统显示两张图片,系统应该告诉我这两张图片是相互关联的还是两张完全不同的图片。能量衡量相容性或不相容性,对吗?如果X和Y相容,则能量为零,如果能量较大,则X和Y不相容。我们有两种方法来训练基于能量的模型。第一种方式是向模型展示一对兼容的X和Y,第二种是向模型展示一对不兼容的X和Y,比如两个无法连接的视频片段,两张完全不同的物体图片。我们需要为这些不兼容的XY对设置高能量,为兼容的XY对设置较低的能量值。这是比较的方法。至少在某些情况下,我发明了这种比较方法,用于一种称为“siamesenets”的自监督学习方法。我曾经喜欢这种方法,但现在我改变了主意。我认为这种做法是注定的。我不认为对比方法是无用的,但它肯定有它的缺点,因为它不能很好地扩展到这些东西的维度。俗话说:幸福的家庭都是相似的;每个不幸的家庭各有各的不幸。两个图像相同或兼容的情况很少见,但两个图像可以有很多差异,并且空间是高维的。所以,基本上我们需要指数数量的对比能量样本来驱动这些对比方法发挥作用。对比方法仍然很流行,但我认为这种方法的能力确实有限。所以我更喜欢非对比法或者所谓的典型法。而这些方法都是基于这样的想法,即在构造能量函数时,有一个有限体积的空间,你可以为其分配低能量值。这可以用损失函数或能量函数中的一个术语来解释,它指的是最小化空间体积,而空间体积可以以某种方式减少能量。我们有很多这样的例子,其中一个例子是积分稀疏编码,这一概念可以追溯到1990年代。这些天我真正感兴趣的是那些应用于自我监督学习的非对比方法。能量模型是未来的方式吗?ZDNet:在您的演讲中,您讨论了“基于正则化潜在变量能量的模型”或RLVEB。你认为RLVEB是未来的方式吗?RLVEB会在2020年代或2030年代引领潮流吗?YL:让我这样说吧:自从ConvNets以来,我对机器学习的东西就没那么感兴趣了。(笑)我不确定RLVEB是否是新的卷积,但我真的很兴奋。当我在IAS上发言时,我满脑子都是RLVEB。RLVEB是一个生成模型。如果你想将它应用于视频预测等任务,你可以给它一个视频,让它预测下一个视频。在过去的几年里,我也改变了主意。现在,我最喜欢的模型不是从X预测Y的生成模型,而是我所说的联合嵌入模型。我们采用X,通过编码器(或神经网络,如果需要)运行它;取Y,并通过另一个编码器运行它;然后预测发生在这个抽象表示空间中。这是一个巨大的优势。为什么我改变了主意?我改变了主意,因为我们之前不知道该怎么做。现在我们有一些方法可以派上用场了。这些方法是在过去两年中出现的。实际上我正在推动两种方法:一种称为VIC-REG,另一种称为BarlowTwins。ZDNet:那么在接下来的5到10年里,您认为我们会在这方面看到什么进展?YL:我认为现在我们至少有一种方法可以研究可以学习在抽象空间中做出预测的系统。在学习抽象预测的同时,系统还可以学习预测抽象空间中随着时间或状态的变化会发生什么。这对于自主智能系统来说是一个非常重要的部分,例如,该系统具有某种世界模型,可以让你提前预测世界上将要发生的事情,还可以预测行动的后果。因此,根据对世界状态的估计和你正在采取的行动,系统会给你一个行动后世界状态的预测。图注:基于能量的模型:“VICREG”是“Variance-Invariance-CovarianceRe-GularizationForSelf-SupervisedLearning(方差-不变-协方差重新规整自监督学习)”的缩写,它基于LeCun能源神经网络架构的最新研究成果。一组图像在两个不同的管道中进行转换,每个扭曲的图像都被发送到编码器,编码器实质上是对图像进行压缩。然后投影仪(也称为“扩展器”)将这些压缩表示解压缩到最终的“嵌入”中,即Z维度。因为两个嵌入之间的相似性不受其失真的影响,所以程序能够找到正确的低能级来识别某些东西。(来源:FAIR)这个预测还取决于一些你无法观察到的潜在变量。比如,你开车的时候,前面有一辆车。汽车可能会刹车,可能会加速,可能会左转或右转。你无法提前知道车辆的状况,这就是潜变量。所以整体架构是这样的,拿初始的视频集X和未来的视频Y,把X和Y嵌入到一个神经网络中,得到X和Y的两个抽象表示。然后对某一个做一个基于能量的预测模型这个空间中的潜在变量。关键是,当这个模型预测世界的抽象表示时,它无法预测世界中的所有细节,因为世界中的许多细节可能是无关紧要的。在路上行驶时,人们可能会看到路边一棵树上一片叶子的非常复杂的部分。一个模型绝对不可能预测这个,或者你不想投入任何精力或资源来预测这个。所以这个编码器基本上在它被询问之前就消除了这些信息。ZDNet:您认为未来5到10年有什么具体的里程碑吗?或目标?YL:我预见的是,我们可以使用“JEPA”(联合嵌入预测架构)架构来学习世界的预测模型,以自我监督的方式学习感知表示,而无需为特定任务训练系统。因为系统学习了X和Y的抽象表示,所以我们可以堆叠它们。因此,一旦我们学习了使我们能够做出短期预测的周围世界的抽象表示,我们就可以添加另一个层,使我们能够学习更多抽象表示并获得做出长期预测的能力。因此,系统通过观察和观看视频来了解世界是如何运转的非常重要。因为婴儿基本上是通过观察世界、学习直觉物理学、学习我们对世界所知的一切来学习的。动物也一样。我们希望我们的机器通过观察来了解世界是如何运转的。但到目前为止,我们还没有这样做。所以在我看来,使用JEPA并以分层的方式检查它们是实现系统观察学习的方式。JEPA可以赋予深度学习机器的另一个好处是推理能力。有一个争议:深度学习只擅长感知,因为输入输出是明确的。但是,如果您想要一个可以推理和计划的系统怎么办?有一些复杂的模型具有一定的推理和规划能力,但并不多。那么,我们如何让机器进行规划呢?如果我们有一个世界的预测模型,如果我们有一个允许系统预测其自身行为后果的模型,我们就可以让系统想象它的行动过程并预测将要发生的事情。然后将此信息提供给一些描述任务是否已完成的内部功能。然后,通过优化,可以使用梯度下降找到最小化目标的动作序列。我们现在不是在谈论学习;我们正在谈论推理和计划。实际上,我现在描述的是经典规划和模型预测控制的最优控制方法。最优控制的不同之处在于,我们使用的是学习到的世界模型,而不是固定模型。我们的模型包含了所有可以处理这个世界的不确定性的变量,因此可以成为能够预测未来和规划一系列行动的自主智能系统的基础。我想从这里飞往旧金山,所以我需要去机场、赶飞机等。要到达机场,我需要离开我的大楼,走在街上,然后叫一辆出租车。要离开我的大楼,我需要离开我的椅子,走到门口,打开门,走到电梯或楼梯。要走到电梯或楼梯,我需要弄清楚如何将这些动作分解为毫秒级的肌肉控制。这称为分层规划。我们希望系统能够做到这一点,但我们还不能真正做到这一点。这些通用架构可以为我们提供这些东西。这是我的希望。能量模型和其他方法之间密不可分的联系ZDNet:你描述能量模型的方式听起来有点像量子电动力学中的东西,比如狄拉克-费曼路径积分或波函数。这只是一个比喻,还是两者实际上是一致的?YL:不是比喻,两者其实有些不同,不完全一样。例如,如果你有一个潜变量,这个潜变量可以取很多不同的值,通常你要做的就是遍历这个潜变量所有可能的值。这可能有些不切实际。因此,您可以从某个分布中抽取一个潜在变量,然后计算可能的结果集。然而,你实际最终计算的是一个成本函数,它给你一个期望值,对潜在变量的可能值进行平均。这看起来很像路径积分。路径积分实际上只是计算多条路径的能量总和,至少在传统意义上是这样。在量子方法中,你不是在添加概率或分数,而是在添加复数,而复数可以相互抵消。虽然我们一直在考虑这样的事情(至少我一直在考虑同样的事情),但我们的研究中没有这样的事情。这个没有在上下文中使用,但是潜在变量的边缘化和路径/轨迹的求和非常相似。ZDNet:您提出了两个相当惊人的断言。一是深度学习的概率方法已经过时。第二个是你说你正在谈论的基于能量的模型与1980年代的方法有一些联系,例如Hopfield网络。能否请您详细说明这两点?YL:我们需要放弃概率模型的原因是我们可以对两个变量X和Y之间的相关性进行建模,但是如果Y是高维的,如何表示Y上的分布?我们真的不知道该怎么办。我们只能写一个非常简单的分布,高斯分布或者高斯分布的混合什么的。如果你想用复杂的概率来衡量它,我们不知道该怎么做,或者我们知道的唯一方法就是通过能量函数来衡量它。所以我们可以写一个能量函数,低能量对应高概率,高能量对应低概率,物理学家就是这样理解能量的,对吧?问题是我们并不总是了解如何标准化。如何解决这个棘手的问题,在统计学、机器学习、计算物理学等领域有很多论文。我提倡的是忘掉概率模型,只考虑能量函数本身。它甚至不需要将能量转化为可以标准化的形式。最终结果是,当您训练数据模型时,您应该有一个最小化的损失函数,以便相容能量函数较低,不相容能量函数较高。就这么简单。ZDNet:与Hopfield网络的关系如何?YL:Hopfield网络和玻尔兹曼机当然与此相关。Hopfield网络是一种非对比方式训练的能量模型,但是效率很低,所以很少有人使用Hopfield网络。玻尔兹曼机基本上是Hopfield网络的对比版本,您可以在其中采集数据样本并降低它们的能量,然后生成其他样本并提高它们的能量。这种方法在某种程度上更令人满意,但也不是很有效,因为这种比较方法不能很好地扩展。由于这个原因,这种方法也没有被使用。ZDNet:那么,正则化潜在变量能量模型(RLVEB)真的可以被认为是Hopfield网络的2.0版本吗?YL:我不这么认为。“意识是人脑局限的结果”ZDNet:你提出了另一个相当惊人的说法,即“只有一个世界模型”,意识是人脑中“一个世界模型的故意配置”。你说这可能是一个疯狂的假设。这是你的猜测吗?这是一个疯狂的假设,还是有任何证据支持它?这个案子有什么证据?YL:这是一个猜测,一个疯狂的想法。在某种程度上,关于意识的任何事情都是推测。因为我们一开始并不知道什么是意识。我认为意识是一种幻觉。我想表达的是,意识被认为是人类和一些动物所拥有的一种能力。我们认为意识体现了这些生物的智慧,这有点可笑。我认为意识是我们大脑局限的结果,因为我们的大脑中有一个单一的、类似世界模型的引擎,我们需要一些东西来控制这个引擎,这个东西就是意识。所以我们有人类意识的错觉。如果我们的大脑变得无限而不再受限,我们就不需要意识了。至少有一些证据表明我们的头脑中或多或少有一个模拟引擎。例如,我们基本上一次只能尝试一项有意识的任务,我们专注于任务,并想象我们计划好的行动的后果。你一次只能做一件事,也可以同时做多项任务,但这些多项任务是我们训练自己不假思索地做的潜意识行为。例如,我们可以在开车时与周围的人交谈。只要我们练习开车的时间足够长,开车就成了一种下意识的行为。所以在学车的最初几个小时里,我们不能边开车边说话,我们必须全神贯注地完成驾驶,因为我们必须使用我们的世界模型预测引擎来计算出所有可怕的情况可以发生。ZDNet:如果这只是猜想,那么对您目前的工作没有太大的实际意义,是吗?YL:不,这是有道理的。我提出的这个自主人工智能模型有一个可配置的世界模型模拟引擎,其目的是规划和想象未来,填补你无法完全观察到的空白。可配置的单一模型具有计算优势,允许系统在您通过观察或基本逻辑等学习的任务之间共享知识。使用您配置的大型模型比针对不同的任务使用完全独立的模型要高效得多,因为不同的任务可能需要单独训练。但我们已经看到了,对吧?我们在Facebook的时候(Meta还叫Facebook的时候),我们用视觉来分析图像,对它们进行排序和过滤。基本上,对于不同的任务,我们有专门的神经网络和专门的卷积网络来解决它们。现在我们有一个可以处理任何任务的大网络。我们以前有几个ConvNet,现在只有一个。我们看到了这种简化。我们现在甚至拥有可以完成所有工作的架构:同一架构中的视觉、文本和口语。这个架构必须分别针对三个任务进行训练,这个架构data2vec是一种自监督的方法。ZDNet:有趣!感谢您的分享。