预训练已被证明可以大大提高下游任务的性能。在传统方法中,通常使用大规模图像标注分类数据集(如ImageNet)进行模型监督预训练。近年来,自监督学习方法的出现使得预训练任务不再需要昂贵的人工标签。然而,绝大多数方法都是为图像分类而设计和优化的。但是图像级预测和区域级/像素级预测之间存在差异,因此这些预训练模型在下游密集预测任务上的性能可能不是最佳的。基于此,来自阿德莱德大学、同济大学和字节跳动的研究人员设计了一种简单有效的密集自监督学习方法,无需昂贵的密集人工标签即可在下游密集预测任务上实现。完美的表现。目前该论文已被CVPR2021录用。论文地址:https://arxiv.org/pdf/2011.09157代码地址:https://github.com/WXinlong/DenseCL方法新方法DenseCL(DenseContrastiveLearning)在这项研究中提出的考虑局部特征之间的对应关系,通过直接在输入图像的两个视图之间的像素(或区域)特征上优化成对对比(相异性)损失来实现密集的自监督学习。表示学习的两种对比学习范式的概念描述。现有的自监督框架将同一幅图像的不同数据增强作为一对正样本,将其余图像的数据增强作为其负样本构建正负样本对,实现全局比较学习,往往忽略了这一点局部特征的连接。有区别。在此基础上,本研究提出的方法将同一图像中最相似的两个像素(区域)特征作为一对正样本,将其余所有像素(区域)特征作为其负样本,实现密集对比学习.具体来说,该方法去除了现有自监督学习框架中的全局池化层,并将其全局映射层替换为密集映射层实现。在匹配策略的选择上,研究人员发现最大相似度匹配和随机相似度匹配对最终准确率的影响非常小。与基线方法MoCo-v2[1]相比,DenseCL引入的计算开销可以忽略不计(慢不到1%),但在转移到下游密集型任务(如对象检测、语义分割)时表现出优异的性能。很好的表现。DenseCL的整体损失函数如下:模型性能本研究进行了消融实验来评估匹配策略对下游任务的性能影响,结果如下表所示。另一组消融实验评估了预训练区域的数量对下游任务性能的影响,结果如下表所示。下图展示了转移到下游密集任务的方法的性能增益:随着训练时间的增加,该研究进一步提供了与基线的直观比较,表明DenseCL始终优于MoCo-v2至少2%:DenseCLvs.MoCo-v2的预训练耗时对比如下:下图将高相似度匹配可视化,目的是描述局部语义特征之间的对应关系:如下图所示,大部分随机初始化的匹配是不正确,从图中可以看出,随着训练时间的变化,对应关系发生了变化。[1]通过动量对比学习改进基线。Chen、Xinlei和Fan、Haoqi和Girshick、Ross和He、Kaiming
