如何一次训练100,000+VisionTransformer？

时间：2023-03-15 17:00:20 科技观察

本文转载自雷锋网。如需转载，请在雷锋网官网申请授权。经过漫长的等待，ICCV2021终于迎来了发布的时刻！ICCV官方在推特上公布了这一消息，并表示今年共投稿6236篇，最终录用1617篇，录用率为25.9%。与2017年（约29%）相比，仍处于较低水平。投稿数量仍在逐年增加，从2017年的2143篇，到2109年的4328篇，再到今天的6236篇，比上一届增加了约50%。这是您阅读电子邮件时的样子吗？不得不说官方皮肤也很接地气，真是扎心，没人哈哈~论文ID地址：https://docs.google.com/spreadsheets/u/1/d/e/2PACX-1vRfaTmsNweuaA0Gjyu58H_Cx56pGwFhcTYII0u1pg0U7MbhlgY0R6Y-BbK3xFhAiwGZ26un3TAtN5Mpubhtml就在今天，AITechnologyReview发现了一个很牛逼的研究，号称可以一次训练100,000个ViTs，而且论文刚刚提到ICCV接受了！最近，VisionTransformer(ViT)模型在许多视觉任务中展示了强大的表达能力和潜力。来自纽约州立大学石溪分校和微软亚洲研究院的研究人员提出了一种新的网络结构搜索方法AutoFormer，用于自动探索最优的ViT模型结构。AutoFormer可以一次性训练大量不同结构的ViT模型，并使其性能收敛。与手动设计的ViT模型相比，搜索结构具有更明显的性能提升。方法亮点：同时训练大量VisionTransformers模型，使其性能接近单独训练；简单有效，可灵活应用于VisionTransformer的变体搜索；与ViT、DeiT等机型相比，性能有明显提升。论文地址：https://arxiv.org/abs/2107.00651代码地址：https://github.com/microsoft/AutoML/tree/main/AutoFormer1。简介最近的研究发现ViT可以学习强大的视觉表示，并且在多个视觉任务（分类、检测、分割等）中展示了令人印象深刻的能力。然而，VisionTransformer模型的结构设计仍然有难度。例如，如何在多头注意力中选择最优的网络深度、宽度和头数？作者的实验发现，这些因素与模型的最终性能密切相关。但是，由于搜索空间非常大，我们很难人为地找到它们的最佳组合。图1：不同搜索维度的变化可以极大地影响模型的性能。这篇论文的作者提出了一种新的NeuralArchitectureSearch(NAS)方法AutoFormer，专门针对VisionTransformer结构。AutoFormer大大节省了人工设计结构的成本，能够自动快速搜索不同计算约束下ViT模型的最佳维度组合，使得不同部署场景下的模型设计更加容易。图2：AutoFormer的结构示意图。在每次训练迭代中，超网会动态改变和更新相应的部分权重。2.方法常见的One-shotNAS方法[1,2,3]通常采用权值共享的方法来节省计算开销，将搜索空间编码成一个权值共享的超网，超网的权值作为估计搜索空间中的结构权重。具体的搜索过程可以分为两步。第一步是更新超网的权重，如下式所示。第二步是使用训练好的超网权重在搜索空间中搜索结构。在实验过程中，作者发现经典的One-shotNAS方法的权重共享方法很难有效应用于VisionTransformer的结构搜索。这是因为以前的方法通常只在结构之间共享权重，而将同一层中不同算子的权重解耦。如图3所示，在VisionTransformer的搜索空间中，这种经典策略收敛速度慢且性能低下。图3权重纠缠与经典权重共享（WeightEntanglement）的训练和测试对比。如图4所示，权重纠缠进一步共享不同结构之间的权重，使得同一层中的不同算子可以相互交互和更新。实验证明，权重纠缠比经典的权重共享方法具有更少的显存占用。快速收敛和高超网络性能的优势。同时，由于权重纠缠，不同的算子可以得到更充分的训练，这使得AutoFormer可以一次训练大量的ViT模型，并使它们接近收敛。（详见实验部分）图4权重纠缠与权重共享对比示意图变量因素：宽度（embeddingdim）、Q-K-V维度（Q-K-Vdimension）、头数（headnumber）、MLP比率（MLPratio）和网络深度（networkdepth），详见表1。表1：AutoFormer的搜索空间为了验证方法的有效性，作者将AutoFormer得到的结构与最近提出的ViT模型和ImageNet上的经典CNN模型进行了比较。对于训练过程，作者采用了类似于DeiT[8]的数据增强方法，如Mixup、Cutmix、RandAugment等，超网的具体训练参数如表2所示。所有模型均在16Tesla上进行训练和测试V100GPU。表2超网训练参数如图5和表3所示。搜索到的结构在ImageNet数据集上明显优于现有的ViT模型。表3：各模型在ImageNet测试集上的结果从表4可以看出，AutoFormer在下游任务中依然表现出色，仅用25%的计算量就超越了现有的ViT和DeiT模型，显示出其强大的泛化能力。表4：下游分类任务的迁移学习结果同时，如图5所示，利用权重纠缠，AutoFormer可以同时让数以万计的VisionTransformers模型得到很好的训练（蓝色点代表从中选取的1000个更好的结构中的搜索空间）。不仅搜索后不需要重新训练结构，节省了搜索时间，而且能够在各种计算资源的约束下快速搜索到最优结构。图5：左图：AutoFormer能够同时训练大量结构并使它们接近收敛。蓝点代表从搜索空间中选择的1000个更好的结构。右图：ImageNet4上的模型比较。结论本文提出了一种新的one-shotNAS方法，专用于VisionTransformer结构搜索——AutoFormer。AutoFormer配备了一种新的重量共享机制，重量纠缠。在这种机制下，搜索空间的网络结构可以得到充分的训练，节省了结构搜索后重新训练（Retraining）的时间。大量实验表明，所提出的算法可以提高超网的排序能力并找到高性能结构。文末，笔者希望通过本文能为手动ViT结构设计和NAS+VisionTransformer提供一些启发。在未来的工作中，作者将尝试进一步丰富搜索空间，并对权重纠缠进行理论分析。

上一篇：BootISO：从ISO文件创建可启动USB设备

下一篇：使用Linux命令行生成随机密码的十种方法

如何一次训练100,000+VisionTransformer？相关文章