当前位置: 首页 > 科技观察

神经切线,5行代码创建一个无限宽的神经网络模型

时间:2023-03-17 18:01:03 科技观察

本文是对ICLR2020论文《NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON》的解读,作者来自谷歌。论文地址:https://arxiv.org/pdf/1912.02803.pdf开源地址:https://github.com/google/neural-tangents深度学习在自然语言处理、对话代理和连接组学等领域取得成功应用后,这种学习方式改变了机器学习的研究格局,并为研究人员带来了许多有趣且重要的开放性问题,例如:为什么深度神经网络(DNN)过参数化泛化得如此好?深度网络的架构、训练和性能之间的关系是什么?如何从深度学习模型中提取显着特征?近年来该领域进展背后的一个关键理论见解是,增加DNN的宽度会导致更规律的行为,并使这些行为更容易理解。许多最近的结果表明,能够变得无限宽的DNN聚合到另一类更简单的模型上,称为高斯过程。在此约束下,贝叶斯推理或卷积神经网络的梯度下降动力学等复杂现象可以简化为简单的线性代数方程。来自这些无限宽网络的一些想法也经常扩展到有限网络。因此,无限宽网络不仅可以作为研究深度学习的一个维度,本身也是一个非常有用的模型。左图:显示深度神经网络如何生成具有无限宽度的简单输入/输出映射的示意图。右图:随着神经网络宽度的增加,我们看到网络输出在不同随机实例上的分布变为高斯分布。不幸的是,推导出有限网络的无限宽度限制需要大量的数学知识,并且必须针对所研究的每个体系结构单独计算。一旦推导出无限宽度模型,就需要高水平的工程能力来提出高效且可扩展的实施方案。总之,将有限宽度模型转换为相应的无限宽度网络的过程可能需要几个月的时间,并且可能本身就是一篇研究论文的主题。为了解决这个问题,加速深度学习的理论进步,谷歌研究人员提出了一个新的开源软件库“神经切线”(NeuralTangents),它可以让研究人员像训练有限宽度一样轻松地构建和训练神经网络。无限宽的神经网络。其核心:NeuralTangent提供了一个易于使用的神经网络库,可以构建有限和无限宽的神经网络。作为神经切线应用的一个例子,想象一下在一些数据上训练一个完全连接的神经网络。通常,神经网络是随机初始化的,然后使用梯度下降进行训练。初始化和训练这些神经网络会产生一个集成网络。研究人员和从业者经常对集成的不同部分的预测进行平均,以获得更好的性能。或者,可以根据不同部分的预测的方差来估计集合的不确定性。这种方法的缺点是训练网络集合需要大量的计算预算,因此很少使用。然而,当神经网络变得无限宽时,集成由高斯过程描述,其均值和方差可以在整个训练过程中计算。使用NeuralTangent,只需五行代码即可构建和训练这些无限宽网络的集合!训练过程如下所示,本实验的交互式协作笔记本可在:https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb中获取这两张图,作者比较了有限神经网络集成与相同结构的无限宽度集成的训练。前者的经验均值和方差由两条浅黑色虚线之间的黑色虚线表示;后者的封闭形式均值和方差由填充颜色区域内的彩色线条显示。在这两个图中,有限宽度和无限宽度网络集成非常接近,无法区分。左图:随着训练的进行,输入数据(水平x轴)上的输出(垂直f轴)。右图:由于训练期间的不确定性导致的训练和测试损失。尽管无限宽度网络集成由一个简单的封闭形式表达式控制,但它与有限宽度网络集成具有显着的一致性。并且由于无限宽度网络集成是一个高斯过程,它自然提供了一个封闭形式的不确定性估计(上图中的彩色区域)。这些不确定性估计与预测的变化非常匹配:在训练有限宽度网络(虚线)的大量不同副本时观察到的情况。上面的例子展示了无限宽度神经网络在捕捉训练动态方面的能力。然而,使用神经切线构建的网络可以应用于任何问题,即可以应用常规神经网络来解决它们。例如,下面将使用CIFAR-10数据集来比较三种不同的无限宽度神经网络架构在图像识别上的表现。值得注意的是,谷歌研究人员可以在梯度下降和全贝叶斯推理下评估高度复杂的模型,例如封闭形式的无限宽度残差网络,这是有限宽度网络体系中的一项艰巨任务。我们可以看到,无限宽度网络模仿有限宽度神经网络,其性能水平类似于全连接网络,其性能比卷积网络差,而卷积网络的性能又比宽残差网络差。然而,与传统训练不同的是,这些模型的学习动态可以以封闭形式完全处理,让研究人员对这些模型的行为有了前所未有的洞察力。雷锋网雷锋网雷锋网(公众号:雷锋网)viahttps://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html