mask-and-predict方法,或将成为计算机视觉领域的新流派。自监督预训练在自然语言处理方面取得了惊人的成功,基本思想中包含掩码预测任务。前段时间,何玉明的论文《Masked Autoencoders Are Scalable Vision Learners》提出了一种简单实用的自监督学习方案MAE,将NLP领域的mask-and-predict方法应用到视觉问题上。现在,Facebook人工智能研究院(FAIR)的一个研究团队提出了一种新的自监督视觉预训练方法MaskFeat。论文地址:https://arxiv.org/pdf/2112.09133.pdfMaskFeat首先随机屏蔽一部分输入序列,然后预测屏蔽区域的特征。通过研究5种不同类型的特征,研究人员发现HistogramofOrientedGradients(HOG)是一种很好的特征描述方法,在性能和效率方面都非常出色。并且研究人员还观察到,HOG中的局部对比度归一化对于获得良好结果至关重要,这与之前使用HOG进行视觉识别的工作一致。该方法可以学习丰富的视觉知识,驱动基于Transformer的大规模模型。在不使用额外的模型权重和监督的情况下,使用MViT-L在Kinetics-400上对未标记视频进行预训练的MaskFeat达到了前所未有的86.7%top-1准确率。此外,MaskFeat可以进一步推广到图像输入,并在ImageNet上取得有竞争力的结果。方法掩蔽视觉预测任务旨在修复掩蔽视觉内容。通过对屏蔽样本进行建模,该模型可以在识别对象部分和运动的意义上实现视频理解。例如,要完成下图中的图像,模型必须首先根据可见区域识别对象,并且还要知道对象通常的外观和移动方式,以便修复缺失区域。此任务的一个关键组成部分是预测目标。在自然语言处理任务中,掩码语言建模使用词汇标记化语料库作为目标。在视觉领域,原始视觉信号是连续的、高维的,没有可用的自然“词汇”。因此,MaskFeat提出了预测蒙版区域的特征。借助从原始完整样本中提取的特征进行监督。目标特征的选择在很大程度上影响了预训练模型的属性,该研究对特征进行了广泛的解释,主要考虑了5种不同类型的目标特征。首先,研究人员将物体特征分为两组:1)可以直接获取的单阶段物体,包括像素颜色和HOG;2)由训练有素的深度网络提取的两阶段对象。由于预测两阶段目标是通过训练有素的深度网络(类似于模型蒸馏)有效学习的,因此预训练和教师模型推理的额外计算成本是不可避免的。本研究主要探索的5种特征类型是:像素颜色;定向梯度直方图(HOG);离散变分自编码器(dVAE);深度特征;伪标签。该研究通过一系列分析探讨了这五个特征的优缺点。虽然掩码语言建模最初预测预定义词汇表的分类分布,但BEiT中的离散化不需要视觉信息。分析结果表明,连续无监督特征和图像描述符是性能更好的预测目标,前者需要模型蒸馏,后者不需要额外的计算开销。此外,我们还发现对目标特征进行监督训练会产生较差的结果,这可能与特征中存在的类级特定信息有关,即这种方法对于局部掩码建模来说过于全局。总体而言,考虑到性能和计算成本之间的权衡,该研究最终选择HOG作为MaskFeat的默认特征。HistogramofOrientedGradients(HOG)特征是计算机视觉和图像处理中用于目标检测的一种特征描述方法。最早是在CVPR2005的一篇论文《Histograms of Oriented Gradients for Human Detection》中提出的。HOG特征提取的过程如下:首先将样本图像划分为若干个像素单元,将梯度方向平均分为多个区间,得到对所有像素点的梯度方向在每个单元的每个方向区间进行直方图统计,得到一个多维特征向量,每个相邻单元构成一个截面,一个截面内的特征向量连接起来,得到一个多维特征向量,样本图像与切片一起扫描,扫描步长为一个单位。最后,将所有块的特征连接起来以获得完整的特征。基于视频识别的实验本研究将MaskFeat与之前在K400数据集上的工作进行了比较,结果如下表3所示,使用MaskFeat的MViT-L在Kinetics-400上实现了新的SOTA——86.7%top-1准确率。迁移学习为了评估该方法在下游任务上的迁移学习性能,本研究在AVAv2.2上微调了MViT-L↑312,40×3Kinetics模型。实验结果如上表3和下表4所示。K600达到了88.3%的top-1准确率,K700达到了80.4%,均达到了新的SOTA。该研究在AVAv2.2上微调了MViT-L↑312,40×3Kinetics模型,MaskFeat模型与现有方法相比的平均精度(mAP)如下表5所示。MaskFeat在全分辨率测试中取得了前所未有的38.8mAP,大大超越了之前所有的方法。感兴趣的读者可以阅读论文原文了解更多研究细节。
