当前位置: 首页 > 科技观察

无需训练,自动扩展的视觉Transformer来了

时间:2023-03-17 20:47:02 科技观察

目前VisionTransformers(ViT)领域主要存在两个痛点:1.缺乏有效的设计扩展ViT的方法;2.训练ViT的计算成本比卷积网络大很多。为了解决这两个问题,德克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究人员提出了As-ViT(Auto-scalingVisionTransformers),这是一种无需训练的ViT自动缩放框架,能够高效且一种自动设计和扩展ViT的原则性方法。论文链接:https://arxiv.org/abs/2202.11921具体来说,研究人员首先使用未经训练的搜索过程设计了ViT拓扑结构的“种子”。这是在研究中实现的,导致Kendall-tau与真实准确度之间存在很强的相关性。其次,从“种子”拓扑开始,我们通过增加不同ViT层的宽度/深度来自动化ViT的扩展规则,从而在一次运行中实现一系列具有不同数量参数的架构。最后,基于ViT在早期训练阶段可以容忍粗粒度标记化的经验,本研究提出了一种渐进式标记化策略,以更快、更经济地训练ViT。作为一个统一的框架,As-ViT在分类(83.5%top1onImageNet-1k)和检测(52.7%mAPonCOCO)任务上实现了强大的性能,无需任何手动调整或扩展ViT架构,端到端的模型设计而扩展过程在单个V100GPU上仅需12小时。具有网络复杂性的自动ViT设计和扩展为了加快ViT设计并避免繁琐的手动工作,本研究希望以高效、自动化和有原则的ViT搜索和扩展为目标。具体来说,有两个问题需要解决:1)如何在训练成本最小甚至为零的情况下,高效地找到最优的ViT架构拓扑?2)如何扩展ViT拓扑的深度和宽度以满足模型尺寸的不同需求?扩展ViT的拓扑空间在设计和扩展之前,首先扩展As-ViT的拓扑搜索空间:输入图像首先被嵌入到1/4尺度分辨率块中,逐步进行空间缩减和通道加倍策略被采纳。这是为了促进密集的预测任务,例如需要多尺度特征的检测。通过流形传播在初始化时估计ViT复杂性ViT训练很慢,因此通过评估训练模型的准确性来进行架构搜索将非常昂贵。最近,出现了许多使用基于ReLU的CNN的免训练神经架构搜索方法,使用局部线性图(Mellor等人,2020)、梯度灵敏度(Abdelfattah等人,2021)和线性区域的数量(Chen等人,2021e;f)或网络拓扑结构(Bhardwaj等人,2021)。然而,ViT配备了更复杂的非线性函数,如self-attention、softmax和GeLU。因此,需要以更普遍的方式衡量他们的学习能力。在这项新研究中,研究人员考虑通过ViT测量流形传播的复杂性,以估计ViT可以逼近复杂函数的程度。直观地说,复杂网络可以将简单输入传播到其输出层的复杂流形,因此可能具有很强的学习能力。在UTAustin的工作中,他们通过ViT映射简单循环输入的多重复杂性:h(θ)=√N[u^0cos(θ)+u^1sin(θ)]。这里,N是ViT输入的维数(例如,对于ImageNet图像,N=3×224×224),u^0和u^1构成圆所在的R^N的二维子空间的正交基.SearchViTTopologicalReward研究人员提出了基于L^E的免训练搜索(算法1),大多数NAS(神经架构搜索)方法评估单个路径或超网络的准确性或损失值作为代理推理。当应用于ViT时,这种基于训练的搜索将需要更多的计算成本。对于每个采样的架构,这里不是训练ViT,而是计算L^E并将其视为指导搜索过程的奖励。除了L^E之外,还包括NTK条件数??κΘ=λ_max/λ_min以指示ViT的可训练性(Chenetal.,2021e;Xiaoetal.,2019;Yang,2020;Hronetal.,2020).λ_max和λ_min分别是NTK矩阵Θ的最大和最小特征值。搜索采用强化学习方法,策略固定为联合分类分布,通过策略梯度更新,研究将策略更新为500步,观察到足以让策略收敛(熵从15.3下降至5.7)。搜索过程非常快:在ImageNet-1k数据集上只需7个GPU小时(V100),这要归功于绕过ViT训练的L^E的简单计算。为了考虑L^E和κΘ的不同大小,本研究通过它们的相对值范围(算法1中的第5行)对它们进行归一化。表3总结了新搜索方法的ViT拓扑统计数据。我们可以看到L^E和κΘ高度支持:(1)有重叠的标记(K_1~K_4都大于步幅),以及(2)更深层的FFN扩展率更大(E_1