随着神经网络模型和训练数据规模的增长,训练效率正成为深度学习的重要关注点。GPT-3在少样本学习方面表现出了卓越的能力,但它需要使用数千个GPU进行数周的训练,因此很难再训练或改进。相反,如果可以设计更小、更快但更准确的神经网络呢?谷歌提出了两种通过神经架构获得的神经网络模型,以及一种基于模型容量和泛化能力的原则性设计方法用于图像识别。第一个是在ICML2021上提出的EfficientNetV2,它主要由卷积神经网络组成,旨在为相对较小的数据集(例如ImageNet1k,有128万张图像)提供更快的训练速度。EfficientNetV2基于之前的EfficientNet架构。为了改进原有的方法,谷歌研究团队系统地研究了现代模型TPU/GPU上的训练速度瓶颈。有几个发现:1.使用非常大的图像进行训练会导致更高的内存占用,导致在TPU/GPU上的训练普遍变慢;2.由于硬件利用率低,广泛使用的深度卷积在TPU/GPU上效率低下;3.常用的uniformcompoundsscaling将卷积网络的每一阶段均等放大,但这并不是最优的方法。为了解决这些问题,研究人员提出了一种训练感知神经架构搜索(train-awareNAS),其中训练速度也包含在优化目标中,并使用一种在不同阶段以非均匀方式缩放的方法,model的代码也是开源的。文章第一作者为谭明兴。training-awareNAS的架构是基于之前的platform-awareNAS。然而,与主要关注推理速度的原始方法不同,训练感知NAS同时优化了模型精度、模型大小和训练速度。该模型还扩展了原始搜索空间,以包括更多加速器友好的操作,例如FusedMBConv通过删除不必要的操作(例如平均池化和最大池化)来简化搜索空间。由此产生的EfficientNetV2网络在所有以前的模型上实现了更高的精度,同时速度更快,体积缩小了6.8倍。为了进一步加快训练过程,研究人员还提出了一种增强的渐进式学习方法(progressivelearning),在训练过程中逐渐改变图像大小和正则化幅度。渐进式训练已用于图像分类、GAN和语言模型,并取得了可喜的成果。这种方法侧重于图像分类,但与以前的方法通常以准确性换取更高的训练速度不同,它略微提高了准确性,同时显着减少了训练时间。改进方法的关键思想是根据图像大小自适应改变正则化强度,例如dropout的概率或数据增强的程度。对于同一个网络,较小的图像尺寸导致网络容量较低,因此需要弱正则化;反之亦然,较大的图像尺寸需要更强的正则化以防止过度拟合。EfficientNetV2模型在ImageNet和一些迁移学习数据集(例如CIFAR-10/100、Flowers和Cars)上进行评估。在ImageNet上,EfficientNetV2显着优于之前的模型,训练速度提高了5-11倍,模型尺寸缩小了6.8倍,而精度没有任何下降。第二类是CoAtNet,一种结合了卷积和自注意力的混合模型,目标是在ImageNet21(拥有1300万张图像)和JFT(拥有数十亿张图像)等大规模数据集上实现更高的准确率。虽然EfficientNetV2仍然是典型的卷积神经网络,但最近对视觉Transformer(visualTransformer,ViT)的研究表明,基于注意力的Transformer模型在JFT-300M等大规模数据集上的表现优于卷积神经网络。受这一观察的启发,研究人员将他们的研究进一步扩展到卷积神经网络之外,以寻找更快、更准确的视觉模型。研究人员系统地研究了如何结合卷积和自注意力来开发用于大规模图像识别的快速准确的神经网络。该工作的结果是基于观察到卷积由于其归纳偏差通常具有更好的泛化能力(即训练和评估之间的性能差距),而自注意力Transformer由于其全局建模能力更强,所以它往往具有更强的泛化能力(即适应大规模训练的能力)。通过结合卷积和自注意力,得到的混合模型可以实现更好的泛化和更大的容量。深度卷积和self-attention可以通过简单的相对attention自然统一,垂直堆叠convolution和attention层可以提高泛化能力,同时兼顾每个阶段所需的capacity和算力,capacity和efficiency。在CoAtNet架构中,给定大小为HxW的输入图像,首先在第一个词干阶段(S0)应用卷积,并将大小缩小为H/2xW/2。每个阶段的大小都在不断减小。Ln是指层数。前两个阶段(S1和S2)主要采用由深度卷积组成的MBConv构建块。最后两个阶段(S3和S4)主要采用具有相对self-attention的Transformer块。与之前ViT中的Transformer块不同,这里使用了阶段之间的池化,类似于FunnelTransformer。最后,我们对头部进行分类以生成类别预测概率。CoAtNet模型在许多数据集(如ImageNet1K、ImageNet21K和JFT)中始终优于ViT模型及其变体。与卷积网络相比,CoAtNet在小规模数据集(ImageNet1K)上表现出相当的性能,并且随着数据大小的增加(例如,在ImageNet21K和JFT上)实现了可观的收益。研究人员还在大规模JFT数据集上评估了CoAtNets。为了实现类似的精度目标,CoAtNet的训练速度比以前的ViT模型快4倍,更重要的是,在ImageNet上实现了90.88%的新的最先进的top-1精度。与之前的结果相比,新提出的模型速度提高了4-10倍,同时在成熟的ImageNet数据集上实现了最先进的90.88%top-1准确率。
