当前位置: 首页 > 科技观察

谷歌爆出算力论文,解答关于无限宽度网络的一切

时间:2023-03-21 16:55:08 科技观察

无限宽度神经网络是近期的一个重要研究课题,但要通过实证实验探索其性质,需要大规模的计算能力。好的。近日,谷歌大脑发表的一篇论文介绍了他们在有限和无限神经网络中的系统探索成果。该研究通过大规模对比实验获得了12项重要实验结论,并在此过程中发现了一些新的改进方法。论文作者之一JaschaSohl-Dickstein表示:“这篇论文包含了你想知道的无限宽度网络的一切,但没有足够的计算能力去探索!”最近,谷歌大脑的研究人员探索了宽神经网络和核方法之间的对应关系。在此过程中,研究人员解决了与无限宽度神经网络研究相关的一系列问题,总结了12个实验结果。此外,实验还发现了一种改进的逐层扩展权重衰减的方法,可以提高有限宽度网络的泛化能力。最后,他们还发现了使用NNGP(神经网络高斯过程)和NT(神经切线)内核的预测任务最佳实践的改进版本,包括一种新的集成技术。这些最佳实践技术让实验中每个架构对应的核在CIFAR-10分类任务上都能达到当前最好的结果。论文链接:https://arxiv.org/pdf/2007.15801v1.pdf当使用贝叶斯方法和梯度下降方法训练的神经网络的中间层无限宽时,这些网络可以收敛到高斯过程或密切相关的核方法.这些无限宽度网络的预测过程可以用贝叶斯网络的神经网络高斯过程(NNGP)核函数来描述,也可以用梯度下降法训练的网络的神经正切核(NTK)和权空间线性化来描述。这种对应关系是最近在理解神经网络方面取得突破的关键,同时也使内核方法、贝叶斯深度学习、主动学习和半监督学习取得了切实进展。NNGP、NTK和相关的宽度约束在为大规模神经网络提供精确的理论描述方面是独一无二的。因此,可以相信它们将继续带来深度学习理论的变革。无限网络是最近活跃的研究领域,但基本的实证问题仍未得到解答。这项GoogleBrain研究是对有限和无限宽度神经网络的广泛而深入的实证研究。在此过程中,研究人员使用经验数据来定量解决影响有限网络和内核方法性能的变量,揭示意想不到的新行为,并开发最佳实践来提高有限和无限宽度网络的性能。实验设计为了系统地对无限和有限神经网络进行实证研究,研究人员首先建立了每种架构的基础,以便于直接比较无限宽度核方法、线性化权重空间网络和基于非线性梯度下降的训练方法。对于有限宽度的情况,基础架构使用具有恒定小学习率和MSE(均方误差)损失的小批量梯度下降。在内核学习设置中,研究人员计算了整个数据集的NNGP和NTK。在完成这种一对一的比较之后,研究人员在基础模型之上进行了大量不同种类的修改。一些修改大致保留了它们的对应关系(例如数据增强),而其他修改则破坏了对应关系并假设对应关系的破坏会影响性能结果(例如使用更大的学习率)。此外,研究人员试图围绕其初始化对基本模型进行线性化,在这种情况下,可以使用常量内核准确描述其训练动态。由于有限宽度效应,这与之前描述的内核设置不同。本研究使用MSEloss的原因是更容易与核方法进行比较,交叉熵loss在性能方面略优于MSEloss,但这留给以后的研究。本研究中涉及的架构要么基于全连接层(FCN)构建,要么基于卷积层(CNN)构建。所有案例都使用ReLU非线性函数。除非另有说明,否则本研究中使用的模型是3层FCN和8层CNN。对于卷积网络,图像形状数据的空间维度必须在最终读出层之前被压缩。为此,要么将图像展平为一维矢量(VEC),要么在空间维度上应用全局平均池(GAP)。最后,研究人员比较了两种参数化网络权重和偏差的方法:标准参数化(STD)和NTK参数化(NTK)。其中,STD用于有限宽度网络的研究,而NTK则用于目前大多数无限宽度网络的研究。除非另有说明,否则本研究中所有核方法的实验都是基于对角核正则化独立进行的。有限宽度网络都使用与基础模型对应的小学习率。本文中的实验基本上是计算密集型的。例如,要在CIFAR-10上为CNN-GAP架构计算NTK或NNGP,必须使用6×10^7x6×10^7核矩阵对项进行评估。通常,这需要大约1200小时的双精度GPU时间,因此研究人员使用了大规模的基于光束的分布式计算基础设施。所有实验都使用基于JAX的神经切线库:https://github.com/google/neural-tangents。为了尽可能系统化,同时考虑到如此巨大的计算需求,研究人员只使用了一个数据集CIFAR-10,在该数据集上评估了对每个架构的每个修改。同时,为了确保结果也适用于不同的数据集,研究人员还在CIFAR-100和Fashion-MNIST上评估了一些关键结果。12ConclusionsfromtheExperiments下面是根据实验结果得出的12个结论(详细分析见原论文):1.NNGP/NTK可以优于有限网络。在无限网络研究中,一个普遍的假设是它们在大数据环境下的性能跟不上相应的有限网络。通过将核方法与有限宽度架构的基础模型(使用小学习率,不进行正则化)进行比较,一一验证可以打破(大学习率,L2正则化)或改进(集成)无限的训练-width和内核方法对应实践的效果,研究人员检验了这个假设。结果如下图1所示:图1:有限和无限网络及其变体在CIFAR-10上的测试精度。从给定架构类的有限宽度基础网络开始,标准和NTK参数化的模型性能随修改而变化:+C用于居中,+LR用于大学习率,+U用于通过提前停止拟合实现的低效,+ZCA用于输入使用ZCA正则化进行预处理,+Ens用于多个初始化集合,以及一些组合。Lin指的是线性化基础网络的性能。可以观察到,对于基础有限网络,无限FCN和CNN-VEC优于它们各自的有限网络。另一方面,无限CNN-GAP网络的性能比有限网络差。研究人员指出,这其实与结构有关。例如,尽管有限宽度FCN结合了高学习率、L2和欠拟合等不同技巧,但无限FCN的性能更好。只有增加积分,有限网络的性能才能达到相似的水平。另一个有趣的观察是ZCA正则化预处理显着提高了CNN-GAP内核的性能。2.NNGP总体上优于NTK如下图2所示,NNGP在CIFAR-10、CIFAR-100和Fashion-MNIST数据集上的表现始终优于NTK。NNGP内核不仅可以生成更强大的模型,而且它们还需要大约一半的内存和计算量,而NTK对应内核的内存和计算量是它们的一半,而且一些性能最高的内核根本没有NTK对应内核。图2:当仔细调整对角正则化时,NNGP在图像分类任务上的表现通常优于NTK。3.centering和integratingfinitenetworks都会得到kernel-likeperformance图3:Centering可以加速训练,提高性能。图4:集成基础网络使它们能够实现与内核方法相当的性能,并在非线性CNN上优于内核方法。4.大学习率和L2正则化可以在有限网络和内核之间产生差异从上面的图1可以看出,大学习率(LR)的效果很容易受到架构和参数化的影响。L2正则化持续提高所有架构和参数化的性能(+1-2%)。即使仔细调整了L2正则化,有限宽度CNN-VEC和FCN的性能仍然不如NNGP/NTK。L2结合earlystopping可以为有限宽度的CNN-VEC带来10-15%的显着性能提升,使其超越NNGP/NTK。5.使用标准参数化可以改进网络的L2正则化图5:受NTK启发的逐层缩放可以使L2正则化在标准参数化网络中更有帮助。研究人员发现,与标准参数化相比,使用NTK参数化时,L2正则化可显着提高有限宽度网络的性能。使用两种参数化的网络权重之间存在双射映射。受NTK参数化中L2正则化项性能提升的启发,研究人员使用该映射构建了可用于标准参数化网络的正则化项。得到的惩罚项与对应的NTK参数化中的原始L2正则化相同,与网上获取的相同。6.在宽度超过两滴时性能可能是非单调的图6:有限宽度网络通常随着宽度的增加表现更好,但CNN-VEC表现出意想不到的非单调行为。L2:在训练阶段允许非零权重衰减,LR:允许较大的学习率,虚线表示允许欠拟合(U)。7.对角正则化表现得像早停图7:对角核正则化表现得像早停。实线对应不同对角正则化ε的NTK推理;虚线对应于梯度下降到时间τ=ηt后的预测,线颜色表示不同的训练集大小m。在时间t执行提前停止与使用系数ε=Km/ηt的正则化密切相关,其中K=10表示输出类别的数量。8.浮点精度决定核方法失效的临界数据集大小图8:无限网络核的尾特征值呈现幂律衰减趋势。9.线性化的CNN-GAP模型由于条件不佳表现不佳。研究人员观察到,线性化的CNN-GAP在训练集上收敛得非常慢,导致验证性能不佳(见上图3)。出现这种结果的原因是池化网络的条件很差。肖等人的工作。[33]表明CNN-GAP网络的初始化条件比FCN或CNN-VEC网络(CIFAR-10为1024)差几倍。表1:按架构类型划分的内核的CIFAR-10测试精度。10.正则化ZCA白化提高了准确性图9:正则化ZCA白化提高了有限和无限宽度网络的图像分类性能。所有图都将性能呈现为ZCA正则化强度的函数。a)CIFAR-10、Fashion-MNIST、CIFAR-100上核方法输入的ZCA白化;b)有限宽度网络输入的ZCA白化。11.等方差仅对远离核区的窄网络有益图10:等方差仅在核区外的CNN模型中使用。如果CNN模型可以有效地利用同方差,那么它有望比FCN对裁剪和翻译具有更强的鲁棒性。令人惊讶的是,宽CNN-VEC的性能随输入扰动幅度的下降速度与FCN一样快,这表明未利用同方差。相比之下,使用权重衰减的窄模型(CNN-VEC+L2+narrow)的性能下降得更慢。正如预期的那样,平移不变的CNN-GAP仍然是最稳健的。12.EnsemblingkernelpredictorsenablepracticaldataaugmentationusingNNGP/NTK图11:集成核预测器支持基于大型增强数据集的计算上可行的预测。可以观察到,DA集成提高了准确性,并且它对NNGP的效果比NTK好得多。在这里,我们提出了一种直接启用集成内核预测器以进行更广泛数据扩充的方法。该策略涉及构建一组增强数据批次,对这些批次中的每一个执行内核推理,然后对结果结果执行集成。这相当于用模块的对角线近似替换内核,其中每个模块对应一个数据批次,所有扩充数据批次的并集就是完整的扩充数据集。该方法在研究中所有无限宽架构的相应内核方法上取得了最先进的结果。