当前位置: 首页 > 科技观察

复旦DISC推出跨视觉语言模态预训练模型MVPTR

时间:2023-03-15 18:46:20 科技观察

复旦大学数据智能与社会计算实验室复旦大学数据智能与社会计算实验室(复旦DISC)推出大规模跨视觉语言模态预训练型号:MVPTR。本文介绍了复旦DISC实验室提出的基于多级语义对齐的多阶段视觉语言预训练模型MVPTR。MVPTR是一种多阶段视觉语言表示模型和预训练方法。层次化、语义源自图像和文本信息,并在不同阶段在不同层次的语义上对齐,在大规模图像-文本对语料库上预训练的MVPTR模型在下游视觉-语言任务中取得了显着进展,包括Image-文本检索、视觉语言问答、视觉推理、短语共指。论文链接:https://arxiv.org/abs/2201.12596;代码链接:https://github.com/Junction4Nako/mvp_pytorch。论文动机视觉和语言是人类智能的两个重要表现形式。近年来,关于视觉语言的多模态研究主要集中在从不同任务中对齐视觉和语言语义学习,例如图像文本检索、视觉语言问答(VQA)、短语表示等。为了打破任务之间的壁垒,学习广义多模态表示,研究人员尝试构建视觉语言预训练模型(如VL-BERT、UNITER、OSCAR等),用于大规模图像-文本对的自监督预训练可以通过微调在下游任务上取得良好的性能。目前大多数视觉语言预训练模型都遵循BERT中的序列建模方法。通过objectdetectors/CNN/visualTransformer从图片中提取object-level/grid-level/patch-level的特征拼接成视觉序列,再结合分词将最终的文本序列拼接成序列,模态内和跨模态交互是通过多层Transformer学习的。这种方法比较直接,但研究人员认为,跨模态信息之间缺乏多层语义粒度对齐。勘探。这里的研究给出了一个图像-文本对的例子来说明图像-文本之间的语义匹配。首先,在模态的语义上存在层次嵌套结构。整个图片可以由很多子图组成,每个子图中可能有多个对象;对于一个句子,它可以分成很多token,多个token可以组成短语。同时,各个层次之间的语义对齐相互帮助。图像标注将标记映射到图像和图像中的对象,这可以进一步帮助包含该词的短语与图像中的区域匹配,完成短语接地的任务。基于对象与token的匹配,短语与图片区域的匹配信息,进一步推断图片与句子的相似度,完成图文检索任务。所以为了协同利用多层次的语义对齐,复旦DISC实验室的研究人员提出了MVPTR:aMulti-stageVision-languagePre-trainingframework。MVPTR首先从文本和图片构建两个层次的语义:对于图片,本研究使用物体检测器提取区域特征,并使用预测的物体类别作为物体层次的语义概念;对于文本,除了分词Token,该研究还使用文本场景图解析器将场景图的结构化元组提取为短语级语义概念。同时,MVPTR模型分为单模态学习和跨模态学习两个阶段。在单模态阶段,模型学习模态内的交互并获得每个模态的多层语义表示;在跨模态阶段,模型学习模态之间的交互并进行细粒度推理。针对MVPTR的预训练,研究设计在不同阶段设计了不同的自监督任务,进行多级语义对齐。在单模态视觉方面,研究人员引入了MCR(maskedconceptrecovering)来对齐区域特征和对象级概念;在跨模态阶段,首先通过VSC(visual-semanticconstructive)粗对齐全局图像和文本单模态表示,然后使用WPG(weakly-supervisedphrasegrouping)对齐phrase-level的概念和区域特征,最后使用ITM(图像文本匹配)和MLM(掩码语言建模)作为高级语义推理任务。通过在约9M图像文本对的语料库上进行预训练,本研究基础设置中的MVPTR在下游任务上具有更好的性能。方法介绍MVPTR的模型结构如下图所示:模型输入为了显式地学习多层次语义,如图所示,对于每个模态,研究者构造了两部分输入,用不同的颜色表示。受先前主要用于图像字幕任务的方法的启发,本研究通过学习概念嵌入来引入其他级别的语义。对于文本,与BERT的处理方式类似,该研究首先通过分词器将其拆分成词,使用现成的文本场景图解析器SPICE将其解析为场景图,将结构元组(objects、attribute-object,object-relation-object)作为短语级别的语义概念。对于每个短语概念,该研究将为其学习一个嵌入表示,从其中所有单词的平均嵌入进行初始化,并且由于该概念需要具有可泛化性,因此该研究仅考虑在预定义中出现超过50次的短语-训练语料库。对于图片,本研究使用固定物体检测器从图片中检测重要物体的标记框和对应的视觉特征,并进一步通过线性层将视觉特征和标记框坐标映射到与其他嵌入相同的维度。同时,用每个框对应的对象标签作为对象级概念,用其标签词的embedding作为这个概念的表示。单模态学习在单模态学习阶段,MVPTR仅通过视觉编码器和文本编码器学习模态内的交互和表示。视觉编码器以拼接后的物体特征序列和物体标签序列为输入,学习物体间物体特征与对应物体级概念之间的关系,同时对齐;文本编码器以拼接后的词序列和短语序列为输入,提供短语中的结构信息,进一步学习上下文中的短语级概念。MCR遮挡概念恢复在视觉编码器中,输入视觉序列以预测标签的方式包含对象级概念。之前的代表作Oscar认为,这样的概念可以作为锚点,帮助对齐对象表示和单词。为了进一步加强其锚点的作用,本研究提出了预训练任务MCR。类似于BERT的MLM任务,研究人员随机覆盖一部分输入标签序列,将其设置为特殊字符[MASK]或随机替换,根据视觉编码器的输出,通过预测覆盖部分原始标签一个线性层。MCR任务可以看作是视觉特征和物体概念在弱监督下的对齐(预测一个特定的标签需要学习对应的物体和它之间的联系),MCR类似于图像标注,可以进一步对齐图像的表示区域并帮助后续的跨模态交互学习。跨模态学习在单一模态内学习交互和表示之后,在第二阶段学习跨模态语义交互和对齐。首先,从粗粒度层面,利用VSC任务对齐单模态编码器得到的全局表示,对齐两个编码器的语义空间;然后将对齐后的token、phrase、object特征序列拼接输入多模态编码器进行Learning,以防止后续预训练任务中label到word的shortcut,影响真正跨模态关系的学习,不考虑标签序列。在此阶段,WPG进一步用于对齐对象特征和短语表示,并基于先前的表示,完成高级推理任务,包括ITM和MLM。VSCVisualSemanticContrastiveLearning在输入跨模态编码器之前,MVPTR通过VSC对齐两个模态编码器的语义空间。具体方法与CLIP和ALBEF中的训练方法类似,在全局层面进行粗粒度对齐。图片和文字。在本研究中,将视觉和文本编码器得到的“[CLS]”token的表示作为图文的全局表示,两个向量之间的余弦相似度作为语义相似度。使用InfoNCE作为训练损失,只有同一批次中匹配的图文为正样本对(对应模型图中余弦相似度矩阵的对角线部分),其余为负样本对。通过全局粗粒度对齐,本研究将对齐空间中的标记、短语和对象特征序列连接到跨模态编码器中。WPGweaksupervision下的phrasealignment在跨模态学习阶段,本研究进一步显式学习phrase之间的alignment关系,由于无法获得特定图像区域与phrase的匹配关系,研究者使用了类似MVPTR中现有方法的weaklysupervisedphrase学习的基础方法。对于每一个co-encodedpicture-textpair,本研究考虑了n个phrase的表示和cross-modalencoder得到的m个objectfeatures的表示,通过cosinesimilarity计算每个phrase-region之间的语义相似度,对于这样的n*m相似度矩阵。基于多示例学习的方法为每个词组选择最相似的区域作为该词组在整张图片中的匹配分数,对所有词组进行平均得到基于词组区域匹配的图文匹配分数。然后可以根据图像-句子匹配对训练过程进行评分,类似于之前在ALBEF工作中发现的,该工作在跨模态编码器的第三层训练WPG。模型完成每一层的匹配后,最终模型完成高层语义推理任务,包括ITM和MLM。ITM图文匹配图文匹配是视觉-语言预训练模型中常用的预训练任务。它本质上是一个序列关系推理任务。需要判断多模态序列的图文是否匹配。在MVPTR中,该研究直接学习多层感知器,通过使用跨模态编码器输出的CLS标记特征来预测匹配的2类分数。与ALBEF的方法类似,该研究基于ITM任务的VSC任务输出的全局相似性,从训练批次中抽取困难的负样本。MLMCoveringLanguageModel覆盖语言模型也是预训练模型中的常见任务。研究人员认为,这本质上是一种推理任务,因为对描述性文本中的关键词,如量词、形容词、名词、动作等的覆盖和回复,本质上是一种从不同角度进行推理的任务。MLM的设置与其他预训练模型一致:随机覆盖或替换一些token,学习一个多层感知器通过模型输出的表示来预测原始token。实验预训练设置首先是在模型结构上。本研究采用与BERT-base相同的参数设置。两个单模态编码器都是6层Transformer架构,参数从BERT-base的前六层开始初始化。;cross-modalencoder也是6层Transformer架构,参数从BERT-base的最后六层开始初始化。在预训练数据集上,MVPTR使用了与VinVL相同的数据集,包括MSCOCO、FLickr30k、GQA、ConceptualCaptions、SBU、OpenImages,共包括约5M张图片和9M张图文对。对于图像特征提取,MVPTR使用VinVL提供的对象检测器。具体的模型和训练参数设置可以参考论文中的介绍。在这项研究中,预训练的MVPTR在多个下游任务上进行了微调,包括在MSCOCO和Flickr30k上的图像文本检索任务、在V??QAv2上的视觉问答任务、在SNLI-VE上的视觉推理任务、RefCOCO+phraserefer到任务。具体微调方法和参数设置请参考文章和代码。下图显示了其中三个任务的结果:可以看出,预训练的MVPTR对MSCOCO和FLickr上的图文检索任务有明显的提升,说明多层次的语义对齐可以帮助模型学习图像-全局文本匹配关系。同时,研究人员在Flickr数据集(表2下半部分)上验证了MVPTR中单峰编码器的语义对齐能力,并将MVPTR的单峰部分与其他基于单峰编码器的方法(CLIP*是优良-tunedversionofCLIP-ViT32inthisexperiment),从结果可以看出,通过引入额外的概念和对象概念的对齐任务MCR,单模态部分的性能甚至优于其他两个模型CLIP,虽然MVPTR-Uni的参数大小只有其他两个(6层和12层Transformer架构)的一半。在跨模态推理任务中,MVPTR对VQA有一定的提升。同时,对比MVPTR和VinVL在各个类别的表现,MVPTR在VQAv2的“其他”问题上表现更好,VinVL在数字问题上表现更好。表现更好。因为VinVL会直接根据物体检测标签来预测答案,研究人员猜测这种方法可以很好地完成计数问题,而MVPTR可以更好地学习跨模态交互来解决其他类型的需要推理的问题。在SNLI-VE上的视觉暗示任务中,MVPTR在测试集上略逊于ALBEF。研究人员认为,ALBEF在测试集上的强大泛化性能来自于它设计的动量蒸馏方法。此外,研究对MVPTR这种方法的改进也将得到进一步探索。在RefCOCO+上的phrasereferencerepresentationtask上,由于这个任务非常依赖objectdetector和考虑区域的选择,研究人员比较了MVPTR和VinVL(VinVL的结果是使用类似于MVPTR的方法fine-tuned实验得到的):在RefCOCO+上testA和testB两个测试集的准确率上,MVPTR的表现是80.88/67.11,高于VinVL的80.5/65.96,说明MVPTR有更强的phrase-level对齐能力。消融实验为了验证各层次对齐的协同作用,本研究针对宾语/短语级概念的引入和对齐设计了消融实验:首先,比较表中的前三行,可以看出object-level概念的引入的缺失会对其他Hierarchical语义对齐产生负面影响,包括细粒度和粗粒度的图文匹配、phrase-level对齐,并进一步影响视觉问答的推理能力,并且影响是所有消融实验中最大的,表明其他层对齐的对象级别Base的概念。同时,只有在引入输入的基础上,MCR的弱监督才能进一步提升模型的性能,尤其是对Uni-RSUM的影响表明MCR可以加强物体概念的锚点能力。通常,对象级对齐有助于短语级和图像级对齐。通过对比第一行和最后两行,我们可以看出短语级概念可以有效帮助完成视觉基础和细粒度图文匹配任务。同时,对比最后两行可以看出,如果不显式引导通过WPG学习短语概念的表示,只在输入端引入短语概念,会引入一些噪声,降低图文匹配的性能.通常,短语级对齐有助于图像文本对齐。Hierarchicalrepresentationofconcepts在MVPTR中,研究明确地学习了短语级别和对象级别的概念,研究人员通过可视化学习到的概念嵌入表示来验证两者之间的嵌套层次关系。如下图所示,研究人员使用t-SNE将learnedembedding降维到2维,选取了几个常见的物体概念(三角形)和包含物体概念的短语概念(点)进行展示:从明显的层级特征是如图所示:对象级概念是聚类的中心,与其相关的词组级概念分布在其周围。各种场景中出现的人和车分布广泛,而猫/狗/鸟都非常接近动物的分布。短语参考可视化为了明确显示MVPTR学习的短语级概念的对齐情况,本研究使用WPG中的短语区域相似性来显示每个短语具有最高语义相似性的区域。下面展示了一个来自MSCOCO测试集的例子: