当前位置: 首页 > 科技观察

Hinton、Lecun、Bengio联合发表了4万字长文《深度学习的昨天、今天和明天》

时间:2023-03-13 15:58:23 科技观察

2018年,ACM(国际计算协会)决定颁发计算机领域最高奖项图灵奖,以YoshuaBengio、YannLeCun和GeoffreyHinton,以表彰他们对计算机深度学习领域的贡献。这也是图灵奖第三次同时颁发给三位获奖者。用于计算机深度学习的人工神经网络在1980年代就已经提出,但由于当时科研界缺乏理论支持和计算能力有限,没有得到相应的重视。正是这三位巨头一直坚持使用深度学习方法,并在相关领域进行深入研究。通过实验发现了许多令人惊讶的结果,并有助于证明深度神经网络的实际优势。所以说他们是深度学习之父也不为过。在AI世界中,当YoshuaBengio、YannLeCun和GeoffreyHinton这三位大神同时出战时,将会有大事发生。近日,深度学习三巨头受ACM时事通讯杂志邀请,就深度学习这一话题进行了深度访谈,回顾了深度学习的基本概念、最新进展以及未来的挑战。广大AI开发者,看完专家的建议,是否对未来有了更清晰的认识?下面让我们看看他们都聊了什么。深度学习的兴起2000年代初,深度学习引入的一些元素使得训练更深层的网络变得更加容易,从而重振了神经网络的研究。GPU和大型数据集的可用性是深度学习的关键因素,具有自动微分功能的开源、灵活的软件平台(例如Theano、Torch、Caffe、TensorFlow等)也增强了这一点。训练复杂的深度网络、重用最先进的模型及其构建块也变得更加容易。更多分层网络的组合允许更复杂的非线性,在感知任务中取得意想不到的结果。深度学习深度在哪里?有人提出,更深层次的神经网络可能更强大,而这个想法早于现代深度学习技术。然而,这些想法实际上是通过架构和培训程序的不断进步而成为可能的,从而导致与深度学习的兴起相关的重大进步。更深的网络可以更好地泛化“输入输出关系类型”,而这不仅仅是因为更多的参数。深度网络通常比具有相同数量参数的浅层网络具有更好的泛化能力。例如,当前流行的计算机视觉卷积网络架构类别是ResNet系列,其中最常见的是ResNet-50,它有50层。来源:知乎@空气草鱼深度网络之所以能够脱颖而出,是因为它利用了一种特定的组合形式,其中一层的特征以多种不同的方式组合在一起,使得下一层可以创造出更多的抽象特征.无监督预训练。当标记的训练示例数量较少且执行任务所需的神经网络的复杂性较小时,可以使用其他一些信息源来创建特征检测器层,并在有限的条件下微调这些特征检测器标签。在迁移学习中,信息源是另一个有大量标签的监督学习任务。但也可以通过堆叠自动编码器而不使用任何标签来创建多层特征检测器。线性整流器的成功之谜。早期,深度网络的成功是由于使用logisticsigmoid非线性函数或密切相关的双曲正切函数对隐藏层进行无监督预训练。长期以来,线性整流器单元一直被神经科学采用,并被用于RBM和卷积神经网络的一些变体。没想到,人们惊喜地发现,非线性整流使得通过反向传播和随机梯度下降训练深度网络更加方便,无需逐层预训练。这是深度学习相对于以前的对象识别方法的进步之一。语音和物体识别方面的突破。声学模型将声波转换为音素片段上的概率分布。罗宾逊、摩根等人。分别使用晶片机和DSP芯片,他们的尝试表明,如果有足够的处理能力,神经网络可以与最先进的声学建模技术相媲美。2009年,两名研究生使用NVIDIAGPU证明了预训练深度神经网络在TIMIT数据集上的表现略优于SOTA。这一结果重新点燃了神经网络中几个主要语音识别小组的兴趣。2010年,基本一致的深度网络能够在不依赖说话人训练的情况下在大词汇量语音识别方面击败SOTA。2012年,谷歌显着改进了Android上的语音搜索。这是深度学习颠覆性力量的早期证明。大约在同一时间,深度学习在2012年ImageNet竞赛中取得了戏剧性的胜利,在识别自然图像中一千种不同类别的物体时,其错误率几乎减半。此次胜利的关键是李飞飞和他的合作者为训练集收集了超过一百万张带标签的图像,以及AlexKrizhevsky对多个GPU的高效使用。深度卷积神经网络有一些新奇之处,比如ReLU可以加速学习,dropout可以防止过拟合,但它基本上只是YannLeCun和合作者研究多年的前馈卷积神经网络。计算机视觉社区对这一突破的反应令人钦佩。证明卷积神经网络优越性的证据是无可争辩的,社区很快放弃了以前手工设计的方法,转而支持深度学习。深度学习的主要近期成果三位大神有选择地讨论了深度学习的一些最新进展,比如软注意力(softattention)和Transformer架构。深度学习的一个重要发展,特别是在顺序处理中,是乘法交互的使用,尤其是以软注意力的形式。这是对神经网络工具箱的变革性补充,因为它将神经网络从纯向量转换机转变为可以动态选择要操作的输入并将信息存储在关联存储器中的架构。这种架构的一个关键特性是它们可以有效地对不同类型的数据结构进行操作。SoftAttention可以应用到某一层的模块,它可以动态地选择哪些向量来自上一层,从而组合计算输出。这可以使输出独立于输入的呈现顺序(将它们视为一组),或利用不同输入之间的关系(将它们视为图形)。Transformer架构已经成为许多应用程序中的主导架构,堆叠了许多层“自注意力”模块。标量积用于同一层中的每个模块,以计算其查询向量与层中其他模块的关键向量之间的匹配。匹配被归一化为总和为1,然后使用得到的标量系数来形成前一层中其他模块产生的值向量的凸组合。生成的向量构成下一计算阶段模块的输入。模块可以是多向的,因此每个模块计算几个不同的查询、键和值向量,从而使每个模块有几个不同的输入成为可能,每个输入都从前一阶段的模块中不同地派生出来以供选择。在此操作中,模块的顺序和数量无关紧要,因此可以对向量集进行操作,而不是像传统神经网络中那样对单个向量进行操作。例如,当语言翻译系统在输出句子中生成一个单词时,它可以选择关注输入句子中相应的单词集,而不管它在文本中的位置。未来挑战深度学习的重要性和适用性正在不断被验证,并被越来越多的领域所采用。对于深度学习,有一种简单直接的方法可以提高其性能——增加模型大小。它通常会随着更多数据和计算变得更加智能。例如,拥有1750亿个参数(但与人脑中的神经元突触相比仍然是一个小数目)的GPT-3大型模型相比只有15亿个参数的GPT-2取得了显着的改进。不过,三巨头在讨论中也透露,对于深度学习来说,仍然存在缺陷,无法通过改进参数模型和计算来解决。例如,与人类的学习过程相比,今天的机器学习仍然需要在以下几个方向取得突破:1.监督学习需要过多的数据标注,而无模型强化学习需要过多的试错。对于人类来说,学习一项技能当然不需要那么多的练习。2、当今系统适应分布变化的鲁棒性远不如人类。人类只需要几个例子就可以快速适应类似的变化。3、今天的深度学习对于感知来说无疑是最成功的,也就是所谓的System1task。如何通过深度学习执行系统??2任务需要谨慎的一般步骤。该领域的研究令人兴奋。早期,机器学习理论家一直关注独立相似分布假设,即测试模型遵循与训练模型相同的分布。不幸的是,这个假设在现实世界中并不成立:例如,各种主体的行为给世界带来的变化会导致不稳定;再比如,总是有新的东西需要学习和发现学习智能体,他们的智能边界在不断提高。所以现实往往是,即使是当今最强大的人工智能,当它从实验室投入实际应用时,其性能仍然会大打折扣。因此,三位大神对深度学习未来的重要期望之一就是能够在分布变化时快速适应并提高鲁棒性(即所谓的distribution-independentgeneralizationlearning),从而在面对新的学习任务减少样本量的能力。今天的监督学习系统需要比人类更多的例子来学习新事物,而无模型强化学习的情况更糟——因为奖励比标记数据更重要。机制可能反馈的信息太少。那么,我们如何设计一个新的更能适应分布变化的机器学习系统呢?从同质层到代表实体的神经元组现在的证据表明,相邻的神经元组可能代表更高级别的向量单元,这些向量单元不仅能够传递标量,而且能够传递一组坐标值。这个想法是胶囊架构的核心,其中单元格中的元素与一个向量相关联,从中可以读取键向量、值向量(有时是查询向量)。适应多个时间尺度大多数神经网络只有两个时间尺度:权重在许多示例中适应非常缓慢,而行为适应每个新输入的变化非常快。通过添加快速适应和快速衰减的“快速权重”叠加层,您可以为计算机提供非常有趣的新功能。特别是,它创建了一个大容量的短期存储,可以让神经网络执行真正的递归,其中相同的神经元可以在递归调用中重复使用,因为它们在更高级别调用中的活动向量可以在以后重建使用来自的信息快速重量。多时间尺度适应的功能正逐渐被元学习所采用。更高层次的认知在考虑新的任务时,比如在交通规则不同的城市开车,甚至想象在月球上驾驶车辆,我们可以利用已有的知识和通用技能,并以新的方式加以应用。动态重组它们的方法。但是当我们使用已知知识去适应新的设置时,如何避免已知知识对新任务的噪声干扰呢?开始步骤可以是使用Transformer架构和循环独立机制RecurrentIndependentMechanisms)。系统1的处理能力使我们能够在计划或推测时猜测潜在的好处或危险。但在更高级的系统层面,可能需要AlphaGo的蒙特卡洛树搜索的价值函数。机器学习依赖于归纳偏差或先前的经验,以鼓励在兼容的方向上学习关于世界的假设。系统2处理过程的性质及其认知的神经科学理论,提出了几种可用于设计更新颖的深度学习系统的归纳偏差和架构。那么如何训练神经网络,使其能够发现世界的一些潜在因果属性呢?20世纪提出的几个具有代表性的人工智能研究项目指出了哪些研究方向?显然,这些AI项目都想实现System2的能力,比如推理能力,将知识快速分解为简单的计算机操作步骤的能力,以及控制抽象变量或实例的能力。这也是未来人工智能技术的一个重要方向。听完三人的讨论,是不是觉得AI之路无限光明?