当前位置: 首页 > 科技观察

SwinTransformer是中坚力量,Tsinghua等人,提到MoBY自监督学习方法的代码已经开源了

时间:2023-03-14 12:55:00 科技观察

近两年,计算机视觉领域发生了两大变化。第一种是MoCo首创的自监督视觉表征学习(MomentumContrast),其预训练模型微调后可以迁移到不同的任务;二是基于Transformer的骨干架构。CNN到Transformer建模转换。不久前,微软亚洲研究院的研究人员提出了一种通过移位窗口计算的分层视觉SwinTransformer,可以作为计算机视觉的通用骨干网络。它在各种回归任务、图像分类、目标检测、语义分割等方面都有很强的表现。近期,清华大学、西安交通大学、微软亚洲研究院的研究人员也在计算机视觉领域发力,提出一种名为MoBY的自监督学习方法,使用VisionTransformers作为其骨干架构,结合MoCov2和BYOL相结合,它们在ImageNet-1K线性评估上取得了相当高的准确率:在DeiT-S和Swin-T,分别进行了300个epoch的训练。与使用DeiT作为主干的MoCov3和DINO相比,性能略好,但trick轻很多。更重要的是,使用SwinTransformer作为主干架构,它还能够评估下游任务(对象检测和语义分割等)中学习到的表示,这与最近的ViT/DeiT方法相比,因为ViT/DeiT不适合对于这些密集的预测任务,线性评估结果仅在ImageNet-1K上报告。研究人员希望这些结果能够对Transformer架构设计的自监督学习方法进行更全面的评估。论文地址:https://arxiv.org/pdf/2105.04553.pdfGitHub地址:https://github.com/SwinTransformer/Transformer-SSL方法介绍自监督学习方法MoBY由MoCov2和BYOL这两个流行的组成自监督学习方法,MoBY这个名字的由来是MoCov2和BYOL的前两个字母。MoBY继承了MoCov2的动量设计、键队列和对比损失。此外,MoBY还继承了BYOL的非对称编码器、非对称数据扩展和动量调度器。MoBY架构图如下图1所示:MoBY包含两个编码器:在线编码器和对象编码器。两个编码器都包含主干和投影头(2层MLP),在线编码器引入了一个额外的预测头(2层MLP),使两个编码器不对称。在线编码器使用梯度更新,目标编码器是在线编码器在每次训练迭代中通过动量更新获得的移动平均值。逐渐增加目标编码器的动量更新策略:在训练过程中,动量项默认从0.99开始,逐渐增加到1。学习表示使用对比损失。具体来说,对于一个在线视图(onlineview)q,contrastiveloss的计算公式如下:其中κ_+为同一图像的另一个视图(view)的目标特征;κ_i是关键队列中的目标特征;τ为温度项;κ是密钥队列的大小(默认为4096)。在训练中,与大多数基于Transformer的方法一样,研究人员也采用了AdamW优化器。MoBY伪代码如下所示:ImageNet-1K上的实验线性评估ImageNet-1K数据集上的线性评估是评估学习表示质量的常用方法。在这种方法中,线性分类器用于主干,主干的权重被冻结,并且只训练线性分类器。训练线性分类器后,使用中心裁剪在验证集上实现了top-1精度。表1显示了使用各种自监督学习方法和骨干网络架构的预训练模型的主要性能结果。1.与其他使用Transformer架构的SSL方法MoCov3、DINO等使用ViT/DeiT作为骨干网络架构的方法相比,本研究首先给出了使用DeiT-S的MoBY的性能结果,以便与研究方法比较合理比较。经过300个epoch的训练后,MoBY达到了72.8%的top-1准确率,略好于MoCov3和DINO(没有multi-crop)。结果如表1所示。2.Swin-TVSDeiT-S研究人员还比较了各种Transformer架构在自监督学习中的使用。如表1所示,Swin-T达到了75.0%的top-1准确率,比DeiT-S高出2.2%。值得一提的是,这个性能差距比使用监督学习更大(+1.5%)。本研究进行的初步探索表明,固定补丁嵌入对MoBY没有用,并且在MLP块之前用批量归一化替换层归一化层可以将top-1精度提高1.1%(训练epoch100),如表2所示。下游任务的迁移性能研究人员评估了学习表征在COCO对象检测/实例分割和ADE20K语义分割下游任务上的迁移性能。1.COCO目标检测和实例分割评估使用了两个检测器:MaskR-CNN和CascadeMaskR-CNN。表3比较了MoBY和预训练监督方法在1x和3x设置下学习到的表征。2.ADE20K语义分割研究人员使用UPerNet方法和ADE20K数据集进行评估。表4给出了监督和自我监督预训练模型的比较结果。这表明MoBY的性能略差于监督方法,这意味着使用Transformer架构的自监督学习还有改进的空间。消融实验研究人员进一步使用ImageNet-1K线性评估进行消融实验,其中Swin-T是骨干网络架构。1.不对称下降路径率是有益的下降路径是使用图像分类任务和Transformer架构进行监督表示学习的有效正则化方法。研究人员通过消融实验探索了这种正则化方法的影响,实验结果如下表5所示。2.其他超参数第一组消融实验探索了密钥队列大小K从1024到16384的影响,实验结果如表6(a)所示。该方法对不同的K(从1024到16384)执行稳定,默认值为4096。第二组烧蚀实验探索了温度τ的影响,实验结果如表6(b)所示。其中τ为0.2时性能最佳,这也是默认值。第三组消融实验探索了目标编码器初始动量值的影响,实验结果如表6(c)所示。0.99的值具有最佳性能并设置为默认值。