当前位置: 首页 > 科技观察

并非所有图像都值得16x16字,清华大学与华为提出动态ViT

时间:2023-03-18 12:22:58 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。在NLP中,Transformer以self-attention模型机制为法宝,在图像识别领域取得了广泛的成功。特别是ViT在大规模图像网络上的性能特别高,因此应用特别广泛。但是随着数据集规模的增长,计算成本会急剧增加,self-attention中的token数量也会逐渐增加!近日,清华大学自动化系黄高助理教授与华为研究员的研究团队另辟蹊径,提出了动态视觉转换器(DVT),可以为每张输入图像自动配置合适数量的token,从而减少冗余计算。通过效率显着。这篇论文的标题是《Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length》,已发表在arXiv上。提出动态ViT很明显,目前的ViT面临着计算成本和代币数量的问题。为了在准确率和速度之间取得最佳平衡,token的数量一般为14x14/16x16。研究团队观察到,一般样本中有很多“容易”的图像,用多个4x4的标签就可以准确预测。当前的计算成本(14x14)相当于增加了8.5倍,但实际上只有少数“困难”图像”图像需要更精细的表示。通过动态调整token的数量,计算效率在“easy”和“hard”样本之间分布不均匀,这里有很大的效率提升空间。基于此,研究团队提出了一种新颖的动态ViT(DVT)框架,目标是自动配置在每张图像上调整的token数量,以实现高计算效率。这个DVT被设计成一个通用框架。在测试时,这些模型从较少的令牌开始依次激活。一旦产生具有足够置信度的预测,推理过程就终止。该模型的主要架构采用了最先进的图像识别Transformer,如ViT、DeiT和T2T-ViT,可以提高效率。这种方法也很灵活。因为DVT的计算量可以通过一个简单的提前终止准则来调整。此功能使DVT适用于可用计算资源动态变化的情况,或者以最小功耗实现给定性能的情况。这两种情况在现实世界的应用程序中都很常见,例如搜索引擎和移动应用程序。根据上面的流程图,细心的读者还会发现,一旦上游到下游的计算失败,就会采用复用之前的信息或者上游信息的方式来实现进一步的数据训练。在此基础上,研究团队进一步提出了特征重用机制和关系重用机制,这两种机制都可以通过最小化计算成本来减少冗余计算,从而显着提高测试准确率。前者允许基于先前提取的深度特征对下游数据进行训练,而后者可以利用现有的上游自注意力模型来学习更准确的注意力。这种动态分配“简单”和“困难”的方法的实际效果可以通过下图的例子来说明。那么,让我们来看看这两种机制是如何工作的。特征重用机制DVT中的所有Transformer都有一个共同的目标:提取特征信号以实现准确识别。因此,下游模型应该在先前获得的深度特征的基础上进行学习,而不是从头开始提取特征。在上游模型中执行的计算有助于自身和后续模型,从而使模型更高效。为了实现这个想法,研究团队提出了特征重用机制。简单来说,就是利用上游Transformer最后一层输出的imagetoken,逐层学习contextembedding,并集成到下游各个Transformer的MLPblock中。关系重用机制Transformer的一个突出优势是self-attentionblock能够整合整幅图像的信息,从而有效地建模数据中的长期依赖关系。通常,模型需要在每一层学习一组注意力图来描述标签之间的关系。除了上面提到的深层特征,下游模型还可以获得前一个模型产生的self-attentionmap。研究团队认为,这些学习到的关系也可以被复用,以方便下游的Transformer学习,具体来说就是使用对数加法运算。效果如何?说多了没用,来看看实际效果如何?Top-1准确率对比ImageNet上的计算量如下图所示。可以看出,DVT的计算效率明显高于DeiT和T2T-VIT:当计算开销在0.5-2GFLOPs以内时,DVT需要的计算量比具有相同性能的T2T-ViT少1.7-1.9倍。此外,这种方法具有灵活性,只需调整一次DVT的置信度阈值即可到达每条曲线上的所有点。CIFAR的Top-1准确率对比GFLOP如下图所示。Top-1准确率对比ImageNet上的吞吐量如下表所示。在DVT中,“简单”和“困难”的可视化示例如下所示。上述ImageNet、CIFAR-10和CIFAR-100的大量实证结果表明,DVT方法在理论计算效率和实际推理速度上明显优于其他方法。看到这么漂亮的成绩,是不是还心潮澎湃呢?感兴趣的朋友欢迎阅读原文~传送门论文地址:https://arxiv.org/abs/2105.15075研究团队黄高今年才33岁,清华自动化系助理教授、博士生导师大学。获得阿里巴巴达摩院2020青橙奖,研究领域包括机器学习、深度学习、计算机视觉、强化学习等。