简评:人工智能、机器学习、深度学习是近几年的热门领域,但我们必须清楚深度学习的局限性,即虽然可以使用连续几何变换将X映射到Y,但它缺乏推理能力和抽象能力。训练集样本不足,部分数据无法用连续的几何变换表示。虽然机器学习可以改变很多行业的游戏规则,但离人性化的人工智能还有很长的路要走。深度学习:几何视图深度学习最令人惊奇的地方在于其复杂性的简单性。十年前,没有人会想到通过梯度下降训练简单的参数模型,就能在机器感知方面取得如此惊人的成果。现在,事实证明你只需要考虑足够的例子和所需的大量参数模型。费曼曾这样描述宇宙,“它并不复杂,只是很多”。在深度学习中,一切都是向量,即一切都是几何空间中的一个点。模型输入(可以是文本、图像等)和目标首先被“向量化”,即变成一些初始输入向量空间和目标向量空间。深度学习模型中的每一层都对通过它的数据执行简单的几何变换。它们一起将模型的层链形成一个非常复杂的几何变换,然后将其分解为一系列简单的几何变换。这种复杂的转换尝试将输入空间映射到目标空间,一次映射一个点。这种转换根据不同层的权重参数而变化,这些参数根据模型当前的性能迭代更新。这种几何变换的一个关键特征是它必须是可微的,这是我们能够通过梯度下降研究其参数的必要条件。直观上,这意味着几何变形从输入到输出必须是平滑连续的。整个过程就是将复杂的几何图形转化为输入数据。这就是深度学习的魔力:将意义转化为向量,转化为几何空间,然后逐渐学习复杂的几何变换,将一个空间映射到另一个空间。深度学习的局限性通过简单的策略,我们实现应用程序的可能性几乎是无限的。然而,即使有大量人工标注的数据,深度学习目前也有很多做不到的事情。比如,你可以组织一个数据集,这个数据集的大小可能是几百、几千、几十万,甚至几百万字,用来描述软件产品的功能。即使有了这些数据,您也无法训练深度学习模型来简单地阅读产品描述并生成相应的代码库。这只是一个例子。一般来说,任何需要推理或应用科学方法(长期规划和类似算法的数据操作)的编程,无论你投入多少数据,深度学习模型都做不到。即使是用深度神经网络学习排序算法也是难以捉摸的。这是因为深度学习模型是将一个向量空间映射到另一个向量空间的“简单”连续几何变换链。它能做的就是给数据X打上标签,并将其与数据Y关联起来。假设存在从X到Y的可学习的连续变换,并且有密集可用的XY训练集,就可以建立深度学习模型。但大多数程序都不能称为深度学习模型——对于大多数任务,要么没有相应的多个深度神经网络来解决任务,要么即使有神经网络也不一定能自己学习,即对应的几何变换可能过于复杂,或者没有基础数据集可以学习。通过堆叠更多层和使用更多训练数据来扩展当前的深度学习技术只能从表面上缓解其中的一些问题。这些代表了一个非常有限的范围,无法解决深度学习模型的更基本问题,而且深度学习程序很可能无法用数据的各种连续几何变形来表示。拟人化机器学习模型的风险当代人工智能一个非常突出的风险是“误解深度学习并高估其能力”。人类思想的一个基本特征是,我们倾向于根据人类的“理论和思想体系”,将人类的意图、信念和理解强加于我们周围的事物。就像在石头上画了一张笑脸,看起来好像在笑,这些都是我们的想象。例如在深度学习中,当我们成功训练了一个看到图片就生成字幕的模型时,我们常常会误认为模型“理解”了图片的内容来生成字幕。当与训练数据中存在的图像类型的轻微偏差导致模型开始生成完全无意义的字幕时,我们会感到非常惊讶。(当我们认为机器学习已经产生了“理解能力”的时候,如果机器学习输出的结果出现偏差,我们会很惊讶,图文:这个男孩拿着棒球棒)经常有一些“对抗案例”可以证明它识别漏洞的程度,输入案例会专门放一些欺骗模型的样本,作为深度学习的输入数据。通过梯度上升,对图像进行轻微修改,以最大化给定类别的类别预测。通过拍摄熊猫的照片,并添加“长臂猿”梯度,我们可以看到神经网络将熊猫归类为长臂猿。这证明了这些模型的脆弱性,以及它们运行的??输入到输出映射与我们人类感知之间的深刻差异。(将长臂猿放入训练集中,一个神经网络会判断照片中的熊猫是长臂猿)我们自己对图像、声音和语言的理解是基于我们作为人类的经验,对于地球上的生物也是如此地球和理解。机器学习模型无法获得这种感觉和理解,因此它们无法用人类的感官来询问机器学习。通过标注大量训练示例来填充我们的模型,我们让它们学习将数据映射到这组特定示例的几何变换,但这种映射只是我们脑海中原始模型的简单草图,而机器学习就像执行死刑一样,执行人的思想,但没有情感和理解,他们的行为准则是??人类赋予的。作为机器学习从业者,要始终牢记这一点,永远不要陷入认为神经网络理解它们执行的任务的陷阱。局部泛化与极端泛化深度学习模型的输入到输出的直接几何变形与人类思考和学习的方式有着根本的不同。人类从自我意识和外部经验中不断学习,这与机器学习的学习路径不同。除了不同的学习过程之外,底层表示的性质也存在根本差异。人类对当前情况、自己和他人保持着复杂、抽象的思维和行为模式,并可以使用这些模型来预测不同的未来可能性并执行长期规划。人类能够将已知的概念组合在一起,即使他们以前从未经历过事情,例如看到一匹穿牛仔裤的马,中了彩票,他们做了什么。这种处理假设的能力使我们的心理模型更加复杂,可以说是人类认知的决定性特征。我称之为“极端概括”:适应新的、以前从未经历过的情况的能力,使用很少或没有新数据。这与深度神经网络形成鲜明对比,我称之为“局部泛化”:如果新的输入偏离之前的训练集,即使是很小的差异也会加速深度神经网络的输入和输出错误率停止一切.比如用深度学习来完成火箭登陆月球的问题,我们需要合适的发射参数。如果用深度神经网络来完成这个任务,无论是使用监督学习还是强化学习进行训练,都需要辅以数千甚至数百万次的启动试验,即需要密集采样的输入空间才能完成训练从输入空间到输出空间的可靠映射。相比之下,人类可以利用他们的抽象能力提出物理模型“火箭科学”,并在一次或几次实验中得出精确的解决方案,将火箭送上月球。再举个例子,如果你开发一个控制人体的神经网络,想让它能够游遍整个城市而不被任何汽车撞到,那么被神经网络控制的人在每一种情况下都会死上千次,直到可以判断车辆的情况和各种危险,制定和执行避让行为。而去一个新的城市,神经网络必须重新学习大部分知识。反过来,由于人类假设情况的抽象建模,人类能够在没有致命的反复试验过程的情况下学习安全的行为。(同样的经历,左边是机器学习的局部泛化,缺乏抽象能力。右边是人类的极端泛化,可以通过假设进行抽象建模,无需实际遍历)简而言之,尽管我们在机器感知方面取得了进步,但我们离感知人文AI还很远:我们的模型只能进行局部泛化适应与过去的数据非常相似的新情况,人类的认知能够进行极端的概括,迅速适应大胆和新颖的情况,或者规划长期的未来情况。结论以下是您应该记住的内容:迄今为止,深度学习唯一真正的成功是能够使用连续的几何变换将空间X映射到空间Y,但需要大量人工注释数据。做好这一切基本上可以改变每个行业的游戏规则,但离更人性化的人工智能还有很长的路要走。为了让AI解决这些限制并开始与人脑竞争,我们需要超越“简单的输入到输出映射”,而专注于推理和抽象。
