当前位置: 首页 > 科技观察

Facebook利用CNNTransformer的优势和灵活运用inductivebias,提出了ConViT

时间:2023-03-15 09:27:28 科技观察

AI。在构建新的机器学习模型和训练范式时,研究人员通常使用一组特定的假设,称为归纳偏差,以帮助模型从更少的数据中学习更多的通用解决方案。近十年来,深度学习的巨大成功在一定程度上归功于强大的归纳偏差。基于其卷积架构,它已被证明在视觉任务中非常成功。他们的硬归纳偏差使得有效地学习样本成为可能,但代价是可能会降低性能上限。VisualTransformer(如ViT)依赖于更灵活的self-attention层,最近在一些图像分类任务上已经超越了CNN,但ViT对样本的需求更大。来自Facebook的研究人员提出了一种名为ConViT的新型计算机视觉模型,该模型结合了两种广泛使用的AI架构——卷积神经网络(CNN)和Transformer。一些限制。同时,借助这两种架构的优势,这种基于可视化Transformer的模型可以超越现有架构,尤其是在小数据的情况下,同时在大数据的情况下实现类似的优异性能。论文地址:https://arxiv.org/pdf/2103.10697.pdfGitHub地址:https://github.com/facebookresearch/convit在视觉任务上非常成功的CNN依赖于架构本身内置的两个归纳偏差:Localcorrelation:相邻像素是相关的;权重共享:图像的不同部分应该以相同的方式处理,无论它们的绝对位置如何。相比之下,基于自我注意的视觉模型(如DeiT和DETR)可最大限度地减少归纳偏差。当在大型数据集上进行训练时,这些模型的性能已经达到甚至超过了CNN。但是,在对小型数据集进行训练时,他们通常很难学习有意义的表征。这里有一个权衡:CNN的强归纳偏差即使在数据很少的情况下也能实现高性能,但当数据很多时这些归纳偏差会限制模型。相比之下,Transformer的inductivebias最小,这表明在小数据设置上存在局限性,但同时这种灵活性让Transformer在大数据上的表现优于CNN。为此,Facebook提出的ConViT模型使用软卷积归纳偏置进行初始化,模型可以在必要时学会忽略这些偏置。软归纳偏差可以帮助模型不受限制地学习。hardinductivebias,比如CNN的architecturalconstraints,可以极大的提高学习的样本效率,但是当datasetsize不确定的时候可能会变成一个constraint。ConViT中的软归纳偏置在不需要时可以忽略,以避免约束模型。ConViT的工作原理ConViT在视觉Transformer之上进行调整,以利用软卷积归纳偏置,从而激励网络执行卷积操作。最重要的是,ConViT允许模型自行决定是否保留卷积。为了利用这种软归纳偏差,研究人员引入了一种称为门控位置自注意(GPSA)的位置自注意形式,其模型学习门控参数lambda,该参数用于平衡基于内容的自注意和卷积初始化位置自注意力。如上图所示,ConViT(左)在ViT的基础上将部分self-attention(SA)层替换为gatedpositionself-attentionlayers(GPSA,右)。因为GPSA层涉及位置信息,所以类标记与最后一个GPSA层之后的隐藏表示相关联。在GPSA层的加持下,ConViT优于Facebook去年提出的DeiT模型。例如,ConViT-S+略优于DeiT-B(比较结果:82.2%对81.8%),而ConViT-S+使用的参数仅为DeiT-B的一半左右(48M对86M)。ConViT最大的改进是在有限的数据范围内,软卷积归纳偏置发挥了重要作用。例如,当仅使用5%的训练数据时,ConViT明显优于DeiT(47.8%对34.8%)。此外,ConViT在样本效率和参数效率方面均优于DeiT。如上图所示,左图为ConViT-S和DeiT-S的样品效率对比结果。这两个模型在具有相同超参数的ImageNet-1k子集上进行训练。图中绿色虚线是ConViT相对于DeiT的改进。研究人员还在ImageNet-1k上将ConViT模型的top-1精度与其他ViT和CNN进行了比较,如上右图所示。除了ConViT的性能优势外,门控参数还提供了一种简单的方法来了解模型训练后每一层的卷积情况。查看所有层,研究人员发现ConViT在训练过程中越来越不关注卷积的位置。对于后面的层,门控参数最终收敛到接近0,这表明卷积归纳偏置被有效地忽略了。然而,许多注意力头为初始层保持高门控值,这表明网络利用来自较早层的卷积归纳偏置来辅助训练。上图显示了DeiT(b)和ConViT(c)的几个注意力图示例。σ(λ)表示可学习的门控参数。接近1的值表示使用卷积初始化,而接近0的值表示只使用content-basedattention。请注意,早期的ConViT层部分维护卷积初始化,而后面的层完全基于内容。在没有进行知识蒸馏的情况下对ImageNet-1K进行了测试,结果如下:AI模型的性能在很大程度上取决于用于训练这些模型的数据的类型和大小。在学术研究和实际应用中,模型通常受到可用数据的限制。ConViT提出的这种软感应偏压在适当的时候可以忽略。这种创造性的想法使构建更加灵活的人工智能系统向前迈进了一步。