本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处.这段时间,关于“AI未来将走向何方”的讨论可以说是愈演愈烈。先是Meta被曝进行了AI相关部门的大重组,谷歌AI是否有个性也引发了大讨论。YannLeCun的身影几乎出现在每一次讨论中。这下,乐存终于坐不住了。他用一篇长达62页的最新论文详述了未来十年他将从事什么样的AI研究:自主机器智能(AutonomousMachineIntelligence)。LeCun表示,在大多数从业者不会提前发表研究内容的“学术氛围”下,他的举动可以说是非常特别。这样做不仅是为了发扬开放科研的精神,也是为了号召更多的人加入进来,共同研究。那么,他所说的自主人工智能到底是什么,又将如何发展呢?可以模拟世界运转的AI在论文中,LeCun首先举了一个例子:一个年轻人最快可以在20小时内学会开车;当今世界上最好的自动驾驶系统需要数百万甚至数万人。数十亿标记的训练数据和虚拟环境中的数百万次强化学习迭代——尚未达到人类水平。从这个例子中,我们可以得出结论,虽然我们在人工智能研究方面取得了很大进展,但我们距离创造出真正能够像人类一样思考和学习的人工智能还有很长的路要走。LeCun提出的自主人工智能就是为了解决这个问题。在他看来,从“世界模型”(世界运作方式的内部模型)中学习的能力可能是关键。众所周知,人类和其他动物可以通过观察和少量互动学习大量关于万物如何以无人监督的方式运作的背景知识。这种知识就是我们所说的常识,而常识构成了“世界模型”的基础。凭借常识,我们可以在不熟悉的情况下采取行动。比如一开始没开过车的小伙子,遇到雪没有人教,就知道这样的路很滑,就慢慢开。此外,常识可以帮助我们填补时间和空间上的信息空白。例如,如果司机听到金属和其他物质的碰撞声,即使没有看到现场,也能知道可能发生车祸。基于这些概念,LeCun提出了构建自主人工智能的第一个挑战:如何设计学习范式和架构,使机器能够以自我监督学习(即不标记数据)的方式学习“世界模型”,以及然后使用这个模型进行预测、推理和行动。在这里,他将认知科学、系统神经科学、最优控制、强化学习和“传统”人工智能等各个学科发展起来的思想重新组合,并与机器学习中的新概念相结合,提出了由六个独立模块组成的自主智能架构.其中,每个模块都是可微的,每个模块都可以很容易地计算出某个目标函数相对于自己输入的梯度估计,并将梯度信息传播到上游模块。自主智能架构六大模块LeCun设想的六大模块如下:1.配置模块:负责执行控制。给定一个要执行的任务,它可以通过调整其他模块的参数,为该任务预先配置好感知模块、世界模块和其他三个模块的值。2.感知模块:负责接收来自传感器的信号,估计当前世界的状态。3.世界模型模块:是这个架构中最复杂的部分。它有两个作用:(1)估计感知模块无法提供的关于世界状态的缺失信息;(2)预测未来可能的状态。由于世界充满不确定性,因此该模块必须能够涵盖广泛的可能预测。4.成本模块:用于计算标量输出,可以预测agent的不适(agent的不适,agent的损伤,违反硬编码的行为约束等)。该模块有两个子模块:(1)内在成本模块(cost),用于实时计算“不适感”;(2)Critic(评论家):预测内在成本模块的未来价值。5.动作模块:用于计算要实现的动作序列。动作模块可以找到最小化未来成本模块的最优动作序列,并以类似于经典最优控制的方式输出最优序列中的第一个动作。6.短期记忆模块:跟踪当前和预计的世界状态以及相关成本。其中,对于这个架构的核心——世界模块,最关键的挑战是如何让它能够表示多个合理的预测。此外,当它学习对世界的抽象表示时,它必须学会忽略不相关的信息,只保留最有用的细节。比如在开车的时候,你只需要预测司机周围的车会做什么,而不需要预测道路两边树上每一片叶子的详细位置。对此,LeCun也给出了一个可能的解决方案:联合嵌入式预测架构(JointEmbeddedPredictionArchitecture,JEPA),用于处理预测中的不确定性。同时,他还提出用非对比自监督学习来训练JEPA,以及从不同时间尺度进行预测的分层JEPA,可以将复杂的任务拆解成一系列不那么抽象的子任务。人工智能还有很多问题需要解决。LeCun表示,未来几十年,训练这样一个世界模型是人工智能要想取得突破所必须面对的最大挑战。目前,为了实现上述架构,还有很多方面需要定义:比如如何准确地训练critic,如何构建和训练configurator,如何使用short-termmemory来跟踪critic的状态。world并存储世界的状态、动作和相关的Intrinsiccosthistory来调整critic...此外,LeCun在论文中还指出,对于未来的自主人工智能研究:(1)需要扩展模型规模,但还不够;(2)奖励机制不够,基于Observational的自监督学习是更有效的方式;(3)推理(reason)和计划(plan)本质上是由于推理(inference):找到一系列的动作和潜变量来最小化(differentiable)目标。这也是使推理与基于梯度的学习兼容的方法。(4)在上述情况下,可能不需要显式的符号操作机制。更多细节可以在原论文中找到:https://openreview.net/forum?id=BZ5a1r-kVsf
