当前位置: 首页 > 科技观察

BERT是图像预训练的未来?字节iBOT更新了十几个SOTA项,部分指标超过MAE

时间:2023-03-13 06:20:54 科技观察

前段时间,何玉明等人的一篇论文成为了计算机视觉圈的焦点。这篇论文仅用一个简单的想法(即maskedautoencoder,MAE)就达到了非常理想的性能,让人们看到了Transformer扩展到CV大模型的美好前景,给该领域的研究者带来了巨大的收益。鼓励(见《大道至简,何恺明新论文火了:Masked Autoencoders 让计算机视觉通向大模型》)。那么,MAE是大模型视觉模型预训练方法的巅峰之作吗?显然不是,一大波挑战者已经在路上,比如字节跳动、约翰霍普金斯大学等机构组成的联合团队。在最近的一篇论文中,他们提出了iBOT,一种适用于视觉任务的大规模预训练方法。通过使用在线标记器对图像进行BERT[1]式预训练,CV模型可以获得通用和广泛的特征表达能力。该方法在十几个类别的任务和数据集上刷新了SOTA结果,甚至在某些指标上超过了MAE[2]。论文链接:https://arxiv.org/abs/2111.07832方法介绍在NLP的大规模模型训练中,MLM(MaskedLanguageModel)是一个非常核心的训练目标。预测这些被遮挡部分的语义信息,通过这个过程,模型可以学习到泛化特征。NLP中的经典方法BERT采用了MLM的预训练范式。MLM训练出来的模型被证明在大模型和大数据上具有优秀的泛化能力,已经成为NLP任务的标配。在这项工作中,研究人员主要探讨了这种NLP中的主流MaskedModeling是否可以应用于大规模VisionTransformer的预训练。作者给出了肯定的回答,认为问题的关键在于visualtokenizer的设计。与NLP中的tokenization可以通过离线词频分析将语料库编码成高语义分词不同,图像块是连续分布的,具有大量冗余的底层细节。作者认为,可以提取图像补丁中高级语义的分词器可以帮助模型避免学习这些冗余细节。作者认为visualtokenizer应该具备两个属性:(a)能够完整表示连续图像的内容;(b)高级语义,如NLP中的分词器。我们如何设计分词器,使其同时具备上述属性呢?作者首先将masked图像序列预测到Transformer中的过程建模为知识蒸馏的过程:作者发现通过使用onlinetokenizer监督MIM过程,即tokenizer和目标网络同步学习,语义可以得到更好的保证。同时将图像内容转化为连续的特征分布。具体来说,分词器和目标网络共享网络结构,在线意味着分词器的参数是从目标网络的历史参数的滑动平均中得到的。这种形式是最近在DINO[3]中通过自蒸馏提出的,用于优化同一图像的两个不同视图的[CLS]标签:在这种损失函数的基础上,作者将MIM的想法也自蒸馏的也用于优化,其中在线分词器的参数是目标网络历史参数的平均值。过程可以表示为:基于以上训练目标,作者提出了一种新的自监督预训练框架iBOT。iBOT同时优化了以上两个损失函数。其中,在[CLS]标签上的自蒸馏保证在线分词器学习到高语义特征,并将语义转移到MIM的优化过程中;而补丁标签上的自蒸馏则不断分发在线分词器所代表的补丁,以监督被屏蔽补丁的恢复为目标。该方法通过MIM显式地对图像的内部结构进行建模,同时保证模型学习到高语义特征。同时,在线分词器可以与MIM目标一起端到端学习,无需额外的分词器训练阶段。Siamese网络结构用于预训练,onlinetokenizer可以看成是teacherbranch的一部分。师生两个分支包括结构相同的骨干网和投影网。作者广泛验证了以不同Transformer为骨干的iBOT方法,如VisionTransformers(ViT-S/16、ViT-B/16、ViT-L/16)和SwinTransformers(Swin-T/7、Swin-T)/14)。作者发现投影网络共享[CLS]标签和补丁标签可以有效提高模型在下游任务上的迁移性能。作者还使用了随机MIM训练机制。对于每张图片,以0.5的概率不进行mask,以0.5的概率从区间[0.1,0.5]中随机选取一个比例进行mask。实验表明,随机MIM机制对于具有多作物数据增强的iBOT至关重要。实验结果为了验证iBOT预训练方法的有效性,作者在大量下游任务上进行了验证,同时也在附录中提供了更详细的不同任务超参数对最终结果的影响。从Linearprobing(线性分类)和k-NN分类的结果来看,iBOT使用ViT-B/16达到了79.5%的线性分类准确率,超越了DINO的78.2%;使用Swin-T/14达到79.3%的准确率,超过EsViT的78.7%;使用ViT-L/16和ImageNet-22K作为预训练数据,达到了81.6%的准确率,这是目前ImageNet-1K线性分类基准上的最高结果。从Fine-tuning的结果来看,iBOT在使用ImageNet-1K作为预训练数据和ViT-B/16时可以达到83.8%的准确率,高于DINO和MAE的83.6%;使用ImageNet-22K作为预训练数据和ViT-L/16时,iBOT可以达到86.3%,高于BEiT的86.0%[4]。在半监督和无监督分类结果方面,iBOT也明显优于没有MIM训练目标的DINO。其中,在半监督基准下,作者发现微调数据越少,iBOT的优势越明显。在无监督基准测试中,iBOT达到了43.4%的准确率和78.6%的NMI。此外,由于MIM被展示为对图像的内部结构进行建模,作者发现iBOT在密集的下游任务中也有非常好的迁移结果。其中,iBOT使用ViT-B/16和CascadeMaskR-CNN在目标检测下可以达到51.2APb;使用ViT-B/16和UpperNet在语义分割下可以达到50.0mAP,高于MAE达到的48.1mAP。同时,作者进一步挖掘了MIM训练目标带来的特征,以帮助分析iBOT在全局图像任务和密集图像任务中表现出色的原因。作者根据ImageNet验证集中所有图像块的概率分布,可视化某些类中心表示的模式。作者在大量的可视化结果中发现iBOT对于局部语义有很好的可视化效果。下图左一和左二所示的车灯和狗耳朵是不同局部类别语义的出现,而下图左三、左四是不同局部纹理语义的出现。在大量的鲁棒性分析和评估中,作者发现iBOT在没有MIM训练目标的情况下比DINO具有更好的性能,这表明局部语义的出现可以帮助模型在具有遮挡和遮挡等一系列干扰的图像识别任务中发挥作用。模糊有更好的准确性。对比最近的maskedautoencoding思想,可以说maskedautoencoding思想在视觉领域大行其道。与最近的一些工作相比,BEiT使用预训练的DALL-E编码器作为分词器,并使用每个补丁标签离散化后的单热编码作为目标模型。的标记。然而,MPP[5]和最近流行的MAE可以将分词器视为恒等变换,即直接在像素空间中进行回归而不是分类。然而,iBOT指出,上述方法的分词器存在过分关注低级信息的问题,这从上述方法对线性分类的低性能也可以看出。然而最近的MAE指出,当mask在图片中的比例足够大时,网络无法从相似的patch中插值信息来迫使其学习全局信息;MAE还指出,线性分类并不是评估特征表示能力的唯一基准。并且它与下游迁移学习的性能没有很好的相关性。