我们知道,在传递给机器学习模型的数据中,我们需要对数据进行归一化处理。数据归一化后,数据被“拉平”成一个均匀的区间,输出范围缩小到0到1之间。一般认为,经过这样的操作,寻找最优解的过程明显会变得更加顺畅,并且该模型将更容易正确地收敛到最佳水平。然而,这种“刻板印象”最近受到了挑战。DeepMind的研究人员提出了不需要归一化的深度学习模型NFNet,但在大图像分类任务上却达到了业界最好水平(SOTA)。前所未有的水平”>该模型(红色部分)与其他模型在ImageNet分类精度和训练时间方面的比较。“我们专注于开发可快速训练的高性能架构,已经展示了一种简单的技术(自适应梯度裁剪,AGC),可以让我们在达到SOTA水平的同时进行大批量、大规模的数据增强训练。《研究一经提交,就吸引了人们的目光。前所未有的水平》>论文链接:https://arxiv.org/abs/2102.06171DeepMind也发布了模型的实现:https://github.com/deepmind/deepmind-research/tree/master/nfnetsNFNet不是一个返回统一的ResNet网络。具体而言,本研究的贡献如下:提出了一种自适应梯度裁剪(AGC)方法,该方法根据梯度范数与参数范数之间的单位比来裁剪梯度。证明了AGC可以用更大的batches和large-scaledataaugmentation训练非归一化网络。设计了一个名为Normalizer-FreeResNets的新网络,在ImageNet验证集上实现了大范围的训练延迟,与NFNet-F1模型达到了相似的精度到EfficientNet-B7的同时训练速度提高了8.7倍,同时最大版本的NFNet模型设置了一个新的SOTA水平,在没有额外数据的情况下达到了86.5%的top-1精度。当在包含3亿张标记图像的大型私有数据集上进行预训练,然后在ImageNet上进行微调时,NFNet实现了比批量归一化模型更高的Top-1准确率:高达89.2%。研究方法在没有归一化的情况下,许多研究人员尝试训练深度ResNets,以通过恢复批量归一化的好处来提高其准确性。大多数这些研究通过引入小常数或可学习标量来抑制初始化时残差分支上的激活规模。DeepMind的这项研究使用并建立在“Normalizer-FreeResNet(NF-ResNet)”之上,这是一类预激活的ResNet,可以在没有规范化层的情况下以训练和测试精度进行训练。NF-ResNet使用形式为“前所未有的级别”>的残差块,其中h_i表示第i个残差块的输入,f_i表示第i个残差分支计算的函数。用于高效大批量训练的自动训练自适应梯度裁剪为了将NF-ResNet扩展到更大的batchsize,研究人员探索了一系列的梯度裁剪策略。梯度裁剪常用于语言建模以稳定训练。最近的一些研究表明:与梯度下降相比,梯度裁剪允许以更高的学习率进行训练,从而实现更快的收敛。这对于条件较差的损失景观或大批量训练尤为重要。因为在这些情况下,最佳学习率受到最大稳定学习率的限制因此研究假设梯度裁剪应该有助于将NF-ResNet有效地扩展到大批量设置。在梯度裁剪方法的帮助下这项名为AGC的研究探索了实现SOTA准确性和训练速度的无规范化器架构的设计。大多数当前最先进的图像分类任务都是通过EfficientNet系列模型(Tan&Le,2019)实现的,这些模型经过优化以最大限度地提高测试精度,同时最大限度地减少参数数量和FLOP计数,但它们的低理论上的计算复杂性并没有转化为训练速度的提高。前所未有的水平”>该研究通过手动搜索设计指南来探索模型设计的空间,与设备上的实际训练延迟相比,这些设计指南可以在保持top-1的帕累托前沿带来改进。它们对holdout精度的影响如下表2所示:Unprecedentedlevels”>Experimental表3显示了六种不同的NFNets(F0-F5)与其他模型在模型大小、训练延迟和ImageNet验证精度方面的比较情况。NFNets-F5达到了86.0%的SOTAtop-1准确率,相比EfficientNet-B8有一定的提升;NFNet-F1的测试准确率与EfficientNet-B7相当,同时训练速度提升了8.7倍;NFNet-F6+SAM达到了86.5%的top-1accuracy.Unprecedentedlevel”>NFNets与其他模型在ImageNet数据集上的精度对比。延迟是在TPU或GPU(V100)上运行单个完整训练步骤所需的毫秒数。此外,研究人员使用包含3亿张带注释图像的数据集来预训练NFNet的变体,并在ImageNet上对其进行微调。最后,NFNet-F4+在ImageNet上达到了89.2%的top-1精度。这是迄今为止通过额外训练数据实现的第二高验证准确度,仅次于当前最强的半监督学习基线(Pham等人,2020年),也是通过迁移学习实现的最高准确度。史无前例的水平”>表5:ImageNet模型在附加数据的大规模预训练后的迁移性能对比。AndrewBrock表示,虽然我们在对神经网络信号传输和训练??规则的理解上还有很多方向需要探索,但目前还没有规范化的方法提供了强有力的参考,并证明了发展这种深刻的理解可以有效地提高生产环境的效率。
