Transformer模型在自然语言处理方面取得了巨大的成功。作为Transformer的构建块,self-attention极大地改变了计算机视觉任务。.NLP的成功不仅依赖于Transformer的计算效率和可扩展性,还依赖于对大量文本的自监督学习。NLP领域目前主流的学习范式有两种:基于自回归语言建模的GPT和基于掩码语言建模的BERT,两者在计算机视觉领域也进行了重新设计,充分利用海量网络图像。然而,在视觉任务上设计具有相似风格的目标是具有挑战性的,因为图像作为一种高维和冗余的模态,在两个方面与文本不同:首先,文本由离散的字符组成,而图像是以连续的值呈现在色彩空间;其次,文本中的离散标记包含高级语义,而离散化图像在像素级别和块级别包含大量冗余标记。因此,我们不禁要问是否有一种方法可以学习感知离散的视觉标记,这将有助于图像预训练。基于以上观察,来自中国科学技术大学、微软亚洲研究院等机构的研究人员提出了一种用于视觉变换器BERT预训练的学习感知码本(perceptualcodebook,PeCo)。目前,BEiT已成功将BERT预训练从NLP领域迁移到视觉领域。BEiT模型直接使用简单的离散VAE作为视觉标记器,但没有考虑视觉标记的语义级别。相比之下,NLP领域中的离散标记是高度语义化的。这种差异促使研究人员学习感知密码本,他们发现了一种在dVAE训练期间加强感知相似性的简单而有效的方法。本研究证明,PeCo生成的视觉标记可以表现出更好的语义,帮助预训练模型在各种下游任务中获得更好的迁移性能。例如,该研究使用ViT-B主干在ImageNet-1K上实现了84.5%的Top-1精度,在相同的预训练时期比BEiT高1.3。此外,该方法还可以将COCOval上的对象检测和分割任务的性能分别提高+1.3boxAP和+1.0maskAP,将ADE20k上的语义分割任务提高+1.0mIoU。论文地址:https://arxiv.org/pdf/2111.12710v1.pdf方法在自然语言中,单词是包含高级语义信息的离散标记。相反,视觉信号是连续的,带有冗余的低级信息。在本节中,研究首先简要描述了VQ-VAE的离散表示学习,然后介绍了如何学习感知码本的过程,最后对学习感知视觉标记进行BERT预训练。LearningaDiscreteCodebookforVisualizingContent这项研究利用VQ-VAE将连续的图像内容转换为离散的标记形式。图像表示为x∈R^H×W×3,VQ-VAE使用离散视觉Codebook来表示图像,即其中,VQ-VAE包含三个主要部分:编码器、量化器和解码器。编码器负责将输入图像映射到中间潜在向量z=Enc(x);量化器负责将位置(i,j)处的向量按照最近邻分配原则从Codebook中量化为相应的codewords:那么我们得到如下公式:其中q是一个量化编码器,可以将一个向量映射到一个codebook索引,r是量化解码器,可以从索引重建向量。基于量化码字z_q,解码器旨在重建输入图像x。VQ-VAE的训练目标定义为:LearningPeCoforvisualcontent。该研究建议在模型上加强原始图像和重建图像之间的感知相似性,而不包括像素损失。感知相似性不是基于像素之间的差异,而是基于从预训练的深度神经网络中提取的高级图像特征表示之间的差异。该研究希望这种基于特征的损失能够更好地捕获感知差异并为低级变化提供不变性。下图从图像重建的角度展示了使用不同损失的模型的比较,结果表明图像在较低的像素级损失下可能不会出现感知上的相似:图1.不同损失下图像重建的比较。每个示例包含三个图像,输入(左)、使用像素损失的重建图像(中间)、使用像素损失和特征损失的重建图像(右)。右边的图像比中间的图像在感知上更类似于输入。形式上,假设输入图像x和重建图像的感知度量可以表示为:其中S表示提取特征的层数,整体目标函数为:BERTobjectiveperformsmaskimagemodeling本研究使用离散视觉中的BERT目标Mask图像建模任务,例如BEiT,是在令牌上执行的。对于给定的图像x,输入标记是非重叠图像块,输出标记是通过学习等式(5)获得的离散感知视觉词。令输入为{x_1,x_2,···,x_N},真值输出为。屏蔽图像建模的目标是从屏蔽输入中恢复相应的视觉标记,其中一部分输入标记已被屏蔽掉。准确地说,令M为掩蔽索引集,掩蔽输入表示为:其中m是与非掩蔽标记具有相同维度的可学习掩蔽标记。Masked(屏蔽)的输入token被送入一个L层visualTransformer,最后一层的隐藏输出记为{h^1,h^2,···,h^N}。实验本研究将预训练模型应用于各种下游任务,包括ImageNet-1K分类、COCO对象检测和ADE20k分割。与SOTA模型的比较首先,该研究将PeCo与SOTA研究进行了比较。研究人员使用ViT-B作为主干,并在ImageNet-1K上进行了300个epoch的预训练。图像分类任务:分类任务在ImageNet1K上的Top-1准确率如表1所示,可以看出PeCo相比从头训练的模型性能有显着提升,可见预训练的有效性。更重要的是,与之前的自我监督预训练模型相比,PeCo模型实现了最佳性能。值得一提的是,与800个epoch的BEiT预训练相比,PeCo仅用了300个epoch就实现了0.9%的性能提升,与1600个epoch的预训练相比,MAE实现了0.5%的性能提升。这验证了PeCo确实有利于预训练。语义分割任务:本研究将PeCo与1)ImageNet-1K上的监督预训练和2)BEiT(SOTA性能的自监督学习模型)进行比较,评估指标为mIoU,结果如表2所示。从结果可以看出,PeCo在预训练时不涉及任何标签信息,但取得了比有监督预训练更好的性能。此外,与自监督BEiT相比,PeCo模型也取得了更好的性能,进一步验证了PeCo的有效性。ObjectDetectionandSegmentation:如表3所示,PeCo在这个任务上取得了最好的性能:为了回答这个问题,该研究设计了实验来提供视觉和定量结果。首先,该研究将对应于相同代码字的图像块可视化,并将它们与两个基线进行比较:在2.5亿私人数据上训练的DALL-E代码本;不使用感知相似性的PeCo模型的变体。身体。结果如图3所示,我们可以看出研究的码字在语义上高度相关,如图中的轮子所示,来自基线的码字通常与低级信息(如纹理、颜色、边缘)相关.此外,该研究还与不使用感知相似性的变体进行了比较。如表4所示,我们可以发现感知码字在线性评估和重建图像分类中取得了更高的准确率。这表明感知码本具有更多的语义意义,有利于图像重建过程。下图显示了使用BEiT和PeCo在ImageNet-1k上进行重建任务的示例。对于每个样本,第一个是原始图像,第二个是相应的掩码图像,第三个是BEiT重建图像,最后一个是感知码本(PeCo)的重建图像。PeCo能够在感知码本的帮助下对掩蔽区域进行更多的语义预测。
