NeurIPS2022会议如火如荼,各界专家学者围绕深度学习、计算机视觉、大-尺度机器学习、学习理论、优化、稀疏理论等诸多细分领域进行交流和探讨。会上,图灵奖得主、深度学习先驱GeoffreyHinton受邀发表演讲,表彰他十年前与研究生AlexKrizhevsky和IlyaSutskever共同撰写的论文《ImageNet Classification with Deep Convolutional Neural Networks》,因其“巨大影响”场。被授予时间考验奖。这项工作发表于2012年,是卷积神经网络首次在ImageNet图像识别竞赛中取得人类水平的表现,这是发起第三次人工智能浪潮的关键赛事。Hinton演讲的主题是《The Forward-Forward Algorithm for Training Deep Neural Networks》。GeoffreyHinton在他的演讲中说,“机器学习研究社区在意识到深度学习对计算机构建方式的影响方面进展缓慢。”他认为人工智能的机器学习形式将导致计算机系统发生变化,这是一种新的软硬结合,将人工智能“放入你的烤面包机”。他接着说:“我认为我们将看到一种完全不同类型的计算机,这在几年内是不可能的。但我们有充分的理由在一种完全不同类型的计算机上工作。“到目前为止,构建完全不同的新型计算机所有数字计算机都被构建为“不朽”,其中硬件设计得非常可靠,以至于相同的软件可以在任何地方运行。“我们可以在不同的物理硬件上运行同一个程序,知识是不朽的。”Hinton表示,这种设计要求意味着数字计算机已经错过了“各种可变的、随机的、不稳定的、模拟的和不一致的硬件可靠性特征”,这些特征可能对我们非常有用。在Hinton看来,未来的计算机系统将采取不同的方法:它们将是“神经形态的”和凡人。这意味着每台计算机都将是神经网络软件与随意硬件的紧密结合,从具有模拟而不是数字组件的意义上说,它可能包含不确定性元素并随着时间的推移而发展。Hinton解释说,“现在的替代方案是我们将放弃硬件和软件的分离,但计算机科学家真的不喜欢这种做法。”所谓凡人计算,就是系统和硬件学到的知识是密切相关。不可分割。这些普通计算机可以从昂贵的芯片工厂“成长”出来。Hinton指出,如果我们这样做,我们可以使用极低功耗的模拟计算,还可以使用忆阻器权重进行数万亿次的并行处理。这是指基于非线性电路元件的具有数十年历史的实验芯片。我们也可以在不知道硬件不同位的确切行为的精确质量的情况下改进硬件。不过,Hinton也表示,新的普通计算机不会取代传统的数字计算机。“控制你银行账户的不是电脑,它也不知道你到底有多少钱。”)和其他东西,比如它可以用一美元将GPT-3之类的东西“放入你的烤面包机”,这样只需几瓦的功率,它就可以与你自己的烤面包机对话。FFNetworksforCommonComputingHardwareHinton在这次演讲中大部分时间都在谈论一种新的神经网络方法,他称之为前向-前向(FF)网络,它取代了反向传播技术。Hinton建议,通过消除反向传播,前馈网络可能更合理地近似现实生活中大脑中发生的事情。多伦多大学的Hinton主页上贴了这篇论文的草稿:论文链接:https://www.cs.toronto.edu/~hinton/FFA13.pdfHinton说FF方法可能更适合通用计算硬件。“目前,如果我们要做这样的事情,我们必须有一个将在专有硬件上运行的学习程序,必须学习利用该专有硬件的特定属性,并且不知道所有这些属性是什么.但我认为前向算法是一个潜在的选择。”他说,构建新型模拟计算机的一个障碍是强调在数百万台设备上运行一款软件的可靠性。“这些手机中的每一个都必须从婴儿手机开始,并且必须学习如何成为手机,”欣顿说。“而且非常痛苦。”由于担心不确定性,即使是技术最娴熟的工程师也可能会慢慢放弃完美、相同的不朽计算机的范例。“在对模拟计算感兴趣的人中,愿意放弃永??生的人仍然很少,”欣顿说。“这是因为对一致性和可预测性的执着。但如果你想让模拟硬件每次都做同样的事情,迟早你会遇到真正的问题,所有这些混乱。”在论文中,Hinton介绍了一种新的神经网络学习程序,并通过实验证明它在小问题上效果很好。详情如下:反向传播有什么问题?深度学习在过去十年的成功确立了有效性执行具有大量参数和大量数据的随机梯度下降。梯度通常是通过反向传播计算的,这引起了人们对大脑是否实施反向传播或者是否有其他方法来获得调整连接权重所需的梯度的兴趣。作为大脑皮层如何学习的模型,反向传播仍然名誉扫地,尽管付出了相当大的努力使其表现得像真正的神经元。目前没有令人信服的证据表明大脑皮层明确传播误差导数或存储神经活动以用于后续反向传播。从一个皮质区域到视觉通路中较早区域的自上而下的连接并不像预期的那样,即如果在视觉系统中使用反向传播,则会发生自下而上的连接。相反,他们形成了一个回路,在这个回路中,神经活动在返回到它开始的地方之前穿过两个区域的大约六个皮质层。作为学习序列的一种方式,随着时间的反向传播尤其不可靠。为了在不经常超时的情况下处理感觉输入流,大脑需要通过感觉处理的不同阶段来传输感觉数据,并且需要一个可以“即时”学习的学习程序。管道后期阶段的表示可能会提供自上而下的信息,这些信息会在后续时间步影响管道早期阶段的表示,但感知系统需要实时推理和学习,而不会停止执行反向传播。反向传播的另一个严重限制是它需要完全了解前向传播中执行的计算才能计算出正确的导数。如果我们在前向传播中插入一个黑盒,那么反向传播就不再可能,除非我们学习黑盒的可微分模型。正如我们将看到的,黑盒根本不会改变FF算法的学习过程,因为不需要通过它进行反向传播。在没有完美的前向传播模型的情况下,人们可能会求助于多种强化学习形式中的一种。这个想法是对权重或神经活动应用随机扰动,并将这些扰动与奖励函数的变化联系起来。但是强化学习程序存在高度可变性:当许多其他变量同时受到扰动时,很难看到扰动一个变量的效果。为了平均掉所有其他扰动引起的噪声,学习率需要与被扰动的变量数量成反比,这意味着强化学习的可扩展性很差,无法与逆传播竞争。这篇论文的主要观点是具有未知非线性的神经网络不需要强化学习。FF算法在速度上可与反向传播相媲美,但它的优点是可以在前向计算的精确细节未知时使用。它还具有能够在通过神经网络传输顺序数据时进行学习的优势,而无需存储神经活动或停止传播误差导数。总的来说,FF算法比反向传播慢一些,并且它在本文研究的几个玩具问题上的泛化效果较差,因此它不太可能在功率受限较小的应用中取代FF。反向传播。对于在非常大的数据集上训练的非常大的模型,这种类型的探索继续使用反向传播。FF算法可能在两个方面优于反向传播,首先是作为大脑皮层的学习模型,其次是使用非常低功耗的模拟硬件而不求助于强化学习。FF算法Forward-Forward算法是一种贪婪的多层学习程序,其灵感来自玻尔兹曼机和噪声对比估计。这个想法是用两个前向传播来代替反向传播的前向和后向传播,这两个前向传播以完全相同的方式相互操作,但在不同的数据上具有相反的目标。其中,positivepass对真实数据进行操作,调整权重以增加每个隐藏层的goodness;negativepass对负数据进行操作并调整权重以降低每个隐藏层中的goodness。在论文中,Hinton通过在CIFAR-10上的实验展示了FF算法的性能。CIFAR-10有50,000张大小为32x32像素的训练图像,每个像素具有三个颜色通道。因此,每个图像有3072个维度。这些图像的背景复杂且高度可变,无法用如此有限的训练数据很好地建模。一般来说,具有两到三个隐藏层的全连接网络在使用反向传播进行训练时过拟合效果很差,除非隐藏层非常小,因此几乎所有报告的结果都是针对卷积网络的。由于FF旨在用于权重共享不可行的网络,因此将其与反向传播网络进行比较,反向传播网络使用局部接受域来限制权重的数量,而不会过多地限制隐藏单元的数量。它的目的只是为了表明对于包含大量隐藏单元的情况,对于包含高度可变背景的图像,FF的性能可与反向传播相媲美。表1显示了使用反向传播和FF训练的网络的测试性能,它们都使用权重衰减来减少过度拟合。有关研究的更多详细信息,请参阅原始论文。
