当前位置: 首页 > 科技观察

腾讯优图&厦门大学提出无需训练的ViT结构搜索算法

时间:2023-03-19 19:19:28 科技观察

近日,ViT在计算机视觉领域展现出了强大的竞争力,在多项任务上取得了惊人的进步。随着许多人工设计的ViT结构(如Swin-Transformer、PVT、XCiT等)的出现,面向ViT的结构搜索(TAS)开始受到越来越多的关注。TAS旨在以自动化的方式在ViT搜索空间中找到更好的网络结构(如MSA的头数、通道比例等)。基于NAS的一次性解决方案(如AutoFormer、GLiT等)已取得初步进展,但仍需要高昂的计算成本(如超过24个GPU天)。主要原因如下:1、在空间复杂度上,ViT搜索空间(比如GLiT空间的量级大约为10^30)远大于CNN搜索空间(比如DARTS的量级)空间约为10^30)。10^18);2.ViT模型通常需要更多的训练周期(比如300个epochs)才能知道其对应的效果。在最近的一篇论文《Training-free Transformer Architecture Search》中,来自腾讯优图实验室、厦门大学、鹏程实验室等结构的研究人员回顾了近年来NAS领域的进展,并注意到:为了提高搜索效率,研究界提出了几个评价指标提出了零成本代理(例如GraSP、TE-score和NASWOT)。这些方法使我们能够在无需训练的情况下评估不同CNN架构的排名关系,从而显着节省计算量。论文地址:https://arxiv.org/pdf/2203.12217.pdf项目地址:https://github.com/decemberzhou/TF_TAS从技术上讲,一个典型的CNN模型主要由卷积模块组成,而一个ViT模型主要由多头注意力模块(MSA)和多层感知器模块(MLP)组成。这种网络结构的差异,将使得现有在CNN搜索空间有效的零成本代理无法保证其在ViT搜索空间的模型评估效果(见下图1)。因此,研究一种更适合ViT结构评价、有利于TAS训练效率的零成本代理指标是必要且值得探索的。这个问题也将激励研究人员进一步研究和更好地理解ViT的结构,以设计一种高效且免训练的TAS搜索算法。图1.(a)研究人员采样的1000个ViT模型的参数量和效应分布。(b-e)在CNN搜索空间中运行良好的零成本代理方法不适用于ViT搜索空间。(f)他们的DSS指标更适合评估不同的ViT模型。方法体为此,研究人员对MSA和MLP模块进行了理论分析,希望找到一些可量化的属性来有效评估ViT网络。根据定量结果,他们观察到在ViT中,MSA和MLP确实具有适合揭示模型效果的不同属性。研究人员有以下定义:衡量一个MSA的等级复杂度,并将其算作突触多样性;估计MLP中重要参数的数量并将其计为突触显着性。当MSA具有更高的突触多样性或当MLP具有更多突触显着性时,其对应的ViT模型总是表现更好。基于这一重要结果,研究人员设计了有效且高效的零成本代理评估指标DSS-indicator(下图2),并在此基础上设计了非训练的Transformer结构搜索算法(TransformerArchitectureSearch,TF-TAS).图2.该方法的总体框架图。具体来说,DSS-indicator通过计算MSA的突触多样性和MLP的突触显着性,得到ViT结构的评价分数。这是学术界首次提出基于MSA的突触多样性和基于MLP的突触显着性作为评价ViT结构的代理评价指标。另外,应该注意的是,TF-TAS与搜索空间设计和权重共享策略正交。因此,TF-TAS可以与其他ViT搜索空间或TAS方法灵活结合,进一步提高搜索效率。与手动设计的ViT和自动搜索的ViT相比,研究人员设计的TF-TAS取得了有竞争力的结果,将搜索过程从24个GPU天缩短到不到0.5个GPU天,快了约48倍。MSA的突触多样性MSA是ViT结构的基本组成部分,其多样性对ViT功效具有重要意义。根据已有工作可知,MSA模块学习到的特征表示存在rankcollapse现象。随着输入在网络中向前传播和加深,ViT中MSA的输出会逐渐收敛到rank1,最后退化为rank1矩阵(每一行的值保持不变,即多样性出现稀疏的情况)。Rankcollapse意味着ViT模型效果不佳。因此,我们可以通过估计等级崩溃的程度来推断ViT模型的效果。然而,估计高维空间中的等级崩溃是计算密集型的。事实上,已经表明矩阵的秩包含特征中多样性信息的代表性线索。基于这些理解,MSA模块中权重参数的排名可以作为评价ViT结构的指标。对于MSA模块,直接衡量其权重矩阵的秩存在计算量大的问题。为了加快计算速度,研究人员使用MSA权重矩阵的核范数来近似其等级作为多样性指标。理论上,当权值矩阵的弗罗贝尼乌斯范数(F范数)满足一定条件时,权值矩阵的核范数可以看作是其秩的等价替代。具体来说,研究人员将MSA模块的权重参数矩阵表示为。m表示MSA中的第m个线性层。因此,的F范数可以定义为:其中,表达式中第i行第j列的元素,根据算术平均数和几何平均数的不等式,上界为:上式的上界是最大的线性独立向量数,矩阵的秩。给定两个随机向量,.当,独立时,的值会相应变大。这表明:的F范数越大,的秩越接近多样性。那时,核范数可以是秩的近似值。形式上,核范数定义为:其中,表示对应矩阵的迹,因此易得:。因此,的秩可以近似为。理论上,和与成正比,这也表明可以使用核范数来衡量多样性。为了更好地估计权重随机初始化的ViT网络中MSA模块的突触多样性,我们进一步考虑了每个MSA模块的梯度矩阵(L是损失函数)上的上述步骤。总的来说,研究人员将第l个MSA模块中权重参数的突触多样性定义如下:从AutoFormer搜索空间采样的网络经过充分训练,以获得其对应的MSA模块的分类效果和突触多样性。它们之间的Kentall'sτ相关系数为0.65,如下图3a所示。表明MSA的突触多样性与每个输入ViT架构的影响之间存在正相关。图3.(a)MSA的突触多样性(红色)和MLP的突触显着性(蓝色)的评估;(b–c)MSA和MLP具有不同的修剪敏感性。MLP的synapticsaliencymodelpruning在CNN领域取得了很大进展,开始在Transformer上应用。已经提出了几种有效的CNN剪枝方法来衡量模型权重在早期训练阶段的重要性。主要有以下两种方法:测量突触在初始化状态下的显着性,用于CNN模型的剪枝;由于Transformer中的不同模块在初始化阶段也有不同程度的冗余,可以通过不同大小的Transformer剪枝来完成。与剪枝类似,TAS主要搜索几个重要的维度,包括注意力头的数量、MSA和MLP的比例等。受这些剪枝方法的启发,我们尝试使用突触显着性来评估不同的ViT。然而,MSA和MLP的结构有很大不同,因此需要分析剪枝灵敏度对测量ViT中不同模块的影响。为了进一步分析MSA和MLP对剪枝的不同敏感性对ViT模型评价的影响,研究人员通过剪枝敏感性实验给出了一些定量结果。如图3b所示,他们从AutoFormer搜索空间中随机抽取5个ViT架构来分析MSA和MLP对剪枝的敏感性。结果表明,MLP比MSA对剪枝更敏感。他们还对PiT搜索空间进行了分析并获得了类似的观察结果(图3c)。此外,我们使用MSA和MLP模块上的突触显着性作为代理,分别在代理ViT基准上计算Kendall的τ相关系数。最终结果表明,MLP上突触显着性的Kendallτ为0.47,优于MSA(0.24)、MLP和MSA(0.41)。由于突触显着性通常计算为总和,因此冗余权重通常具有负累积效应。MSA模块对剪枝不敏感,说明MSA的权重参数具有较高的冗余度。在剪枝领域已经证明,冗余权重参数的值远小于非冗余权重参数的值。虽然这些冗余参数的值都比较小,但超过50%的冗余往往会产生较大的累积效应,尤其是在区分相似的ViT结构时。对于累积效应,在一般零成本代理中不加选择地考虑MSA的冗余权重参数来衡量显着性,导致MSA的累积效应在相应的零成本代理中以累积形式出现。累积效应可能允许零成本代理给较差的网络更高的排名。同时,权重冗余对MLP模块的突触显着性影响不大,因此可以作为评价MLP模块权重顺序排序复杂度的指标,表明模型优劣从一个方面。为了评估ViT中的MLP,我们设计了基于突触显着性的评估代理指标。在网络修剪中,模型权重的重要性已被广泛研究。由于神经网络主要由卷积层组成,因此有几种基于剪枝的零成本代理可以直接用于测量神经网络的突触显着性。另一方面,ViT架构主要由MLP和MSA模块组成,它们具有不同的剪枝特性。通过对MSA和MLP模块的剪枝敏感性分析,他们验证了MLP模块对剪枝更敏感。因此,突触显着性可以更好地反映MLP模块中权重重要性的差异。相比之下,MSA模块对修剪相对不敏感,其突触显着性经常受到冗余权重的影响。基于MLP的修剪敏感性,我们建议以模块化方式测量突触显着性。具体而言,所提出的模块化策略可衡量作为ViT结构重要组成部分的MLP的突触显着性。给定一个ViT架构,第l个MLP模块的显着性得分为:其中n是指定ViT网络中第l个MLP的线性层数,通常设置为2。图3a显示了一些定性结果来验证评估ViT架构的有效性。无训练TAS基于以上分析,研究人员设计了一种基于模块化策略的无训练TAS(TF-TAS),以提高搜索TAS的搜索效率。如下式所示,DSS-indicator同时考虑了MSA的突触多样性和MLP的突触显着性来对模型进行评分:总体而言,DSS-indicator从两个不同的维度评估每个ViT结构。TF-TAS是在输入模型经过前向传播和反向更新后计算的,作为相应ViT模型的代理分数。研究人员将模型输入数据的每个像素都保持为1,以消除输入数据对权重计算的影响。因此,它对随机种子具有不变性,与真实图像输入数据无关。实验结果1.Image-Net研究人员首先在ImageNet数据集上测试搜索效果,结果如下图。在三个参数级别上,研究人员可以找到不低于甚至优于基于NAS的一次性TAS方法的模型结果。此外,所需的耗时(0.5GPU天)远小于现有TAS方法所需的计算成本(超过24GPU天)。2.迁移实验为了进一步验证搜索模型的效果,研究人员在CIFAR-10和CIFAR-100数据集上验证了其迁移。根据AutoFormer论文的设置,他们在一张384x384的图片上对模型进行fintune,效果如下图。基于DSS指标发现的模型在可转移性方面与基于一次性NAS发现的模型具有可比性。3.在其他ViT搜索空间的搜索效果此外,研究人员还对PiT搜索空间进行了搜索测试,根据论文中的设置,在COCO数据集上测试搜索到的模型结果对应的检测结果。结果如下表所示:他们搜索到的PiT模型TF-TAS-Ti、TF-TAS-XS和TF-TAS-S与手工设计的PiT相当,远好于模型结果随机搜索。而在检测效果方面,研究人员的方法也具有一定的优势。这些结果验证了该方法的有效性和普适性。