让机器做出与人类相似的反应,一直是人工智能研究不懈的目标。为了让机器具备感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解、人机对话等,通过这些任务来训练和评估机器的智能程度。具体方面。一般来说,领域专家手动构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制,训练模型往往需要大量的标记数据才能获得更好、更强大的模型。基于Transformer架构的预训练模型缓解了这个问题。它们首先通过自我监督学习进行预训练,以从大规模未标记数据中训练模型以学习一般表示。他们只用少量手动标记的数据进行微调,就在下游任务上取得了惊人的性能。自BERT应用于NLP任务以来,各种预训练模型在单模态领域发展迅速,如VisionTransformer(ViT)和Wave2Vec。大量工作表明它们有利于下游单峰任务并避免从头开始训练新模型。与单峰域类似,多峰域也存在高质量标记数据较少的问题。我们不禁要问,上述预训练方法是否可以应用于多模态任务?研究人员对这个问题进行了探索并取得了重大进展。在这篇论文中,来自中国科学院自动化研究所和中国科学院大学的研究人员调查了视觉语言预训练(VLP)的最新进展和新领域,包括图像-文本预训练和视频-文本预训练。VLP通过对大规模数据的预训练来学习不同模态之间的语义对应关系。例如,在图像到文本的预训练中,研究人员希望模型将文本中的狗与图像中狗的外观相关联。在视频文本预训练中,研究人员希望模型能够将文本中的对象/动作映射到视频中的对象/动作。论文地址:https://arxiv.org/pdf/2202.09061.pdf为了实现这一目标,研究人员需要巧妙地设计VLP对象和模型架构,让模型能够挖掘不同模态之间的关联。为了让读者更好地全面掌握VLP,本研究首先从特征提取、模型架构、预训练目标、预训练数据集和下游任务五个方面回顾其近期进展。然后,文章详细总结了具体的VLP模型。最后,本文讨论了VLP的新领域。据我们所知,这是VLP领域的第一次调查。研究人员希望这项调查能够阐明VLP领域的未来研究。VLP概述VLP的五个方面回顾及其在特征处理方面的最新进展:论文主要介绍了VLP模型如何进行预处理,对图像、视频、文本进行表示,得到相应的特征。为了充分利用单峰预训练模型,VLP随机初始化标准转换器编码器以生成视觉或文本表示。对于视觉,VLP利用预训练的视觉转换器(例如ViT和DeiT)对ViT-PF进行编码。在文本方面,VLP使用预训练的文本转换器(如BERT)对文本特征进行编码。为简单起见,本研究将这些变形金刚命名为Xformer。在模型架构方面:论文从两个不同的角度介绍了VLP模型架构:(1)从多模态融合的角度观察单流和双流架构(2)从整体上比较encoder和encoder-decoder架构设计器件比较。单流架构是指将文本和视觉特征组合在一起,并将它们馈送到单个转换器块中,如下面的图1(a)所示。单流架构通过合并注意力来融合多模式输入。单流架构的参数效率更高,因为两种模式都使用相同的参数集。双流架构意味着文本和视觉特征没有结合,而是独立地馈送到两个不同的转换器块,如图1(b)所示。两个转换器块不共享参数。为了获得更高的性能,交叉注意力(如图1(b)中的虚线所示)用于实现跨模态交互。为了获得更高的效率,还可以省略视觉转换器块和文本转换器块之间的交叉注意力。许多VLP模型采用仅编码器架构,将不同的模态表示直接馈送到输出层。相比之下,其他VLP模型提倡使用Transformer编码器-解码器架构,其中不同的模态表示首先被馈送到解码器,然后被馈送到输出层。在预训练目标方面:论文通过使用不同的预训练目标对VLP模型进行预训练,将预训练目标归纳为四类:完成、匹配、时间、特定类型。完成是指从未屏蔽的部分重建屏蔽的元素。以掩蔽语言建模(MLM)为例,它首先由taylor提出,被广泛称为BERT作为预训练任务。VLP模型中的MLM类似于预训练语言模型(PLM)中的MLM,它不仅可以从resttexttokens中预测maskedtexttokens,还可以从visualtokens中预测maskedtexttokens。根据经验,BERT-followingVLP模型以15%的屏蔽率随机屏蔽每个文本输入标记,并在80%的时间使用特殊标记[MASK],10%的时间使用随机文本标记,剩下的10%的时间Time使用原始标记来替换掩码文本。然而,在DanqiChen等人的论文《Should You Mask 15% in Masked Language Modeling?》中。在普林斯顿大学,作者发现通过有效的预训练方案,他们可以屏蔽40-50%的输入文本,并获得比默认的15%更好的下游性能。在掩蔽视觉建模(MVM)中,与MLM一样,MVM对视觉(图像或视频)区域或补丁进行采样并掩蔽其视觉特征,通常概率为15%。VLP模型需要在给定剩余视觉特征和所有文本特征的情况下重建掩码的视觉特征。视觉-语言匹配(VLM)是最常用的用于对齐视觉和语言的预训练目标。在单流VLP模型中,研究人员使用特殊的标记[CLS]表示作为两种模态的融合表示。在双流VLP模型中,研究人员将一个特殊的视觉标记[CLSV]视觉表示和一个特殊的文本标记[CLST]文本表示连接起来,作为两种模式的融合表示。VLP模型将两种模态的融合表示提供给FC层和sigmoid函数以预测0和1之间的分数,其中0表示视觉和语言不匹配,1表示视觉和语言匹配。在训练期间,VLP模型在每一步都从数据集中采样正负对。在预训练数据集方面:VLP的大多数数据集都是通过组合跨多模态任务的通用数据集来构建的。在这里,一些主流语料库及其详细信息如下表1所示。在下游任务方面:各种各样的任务需要视觉和语言知识的融合。论文的这一小节介绍了此类任务的基本细节和目标,并将其分为五类:分类、回归、检索、生成和其他任务,其中分类、回归和检索任务也称为理解任务。在分类任务中,包括视觉问答(VQA)、视觉推理和综合问答(GQA)、视觉语言推理(VLI)、自然语言视觉推理(NLVR)、视觉常识推理(VCR)等。在VQA中,给定图像或视频视觉输入,通常被视为分类任务,模型从选择池中预测最合适的答案;在GQA中,我们可以把GQA看作是VQA的升级版,旨在对自然场景中的视觉推理进行超前研究;在VLI中,给定一个字幕对齐的视频片段作为前提,再与基于视频内容的自然语言假设配对,模型需要推断该假设是否与给定的视频片段相矛盾。在回归任务中,多模态情感分析(MSA)旨在使用视觉、语言等多模态信号检测视频中的情绪。它被用作连续强度变量来预测话语的情绪方向。在检索任务中,视觉语言检索(VLR)通过适当的匹配策略理解视觉(图像或视频)和语言,包括两个子任务,视觉到文本检索和文本到视觉检索,其中视觉到文本检索是基于视觉从更大的描述池中获取最相关的文本描述,反之亦然。在生成任务中,视觉字幕(VC)旨在为给定的视觉(图像或视频)输入生成语义和句法上合适的文本描述。此外,论文还介绍了其他下游任务,如多模式机器翻译(MMT)、视觉语言导航(VLN)和光学字符识别(OCR)等。SOTAVLP模型图像-文本VLP模型。VisualBERT被称为第一个图像-文本预训练模型,使用FasterR-CNN提取视觉特征,连接视觉特征和文本嵌入,然后将连接后的特征馈送到由BERT初始化的单个转换器中。许多VLP模型在调整预训练目标和预训练数据集时遵循与VisualBERT类似的特征提取和架构。最近,VLMO利用图像补丁嵌入和文本词嵌入,将组合嵌入与模态专家一起馈送到单个转换器中,并取得了令人印象深刻的性能。METER探索了如何使用单峰预训练模型,并提出了一种双流架构模型来处理多峰融合,在许多下游任务上实现了SOTA性能。视频-文本VLP模型。VideoBERT被称为第一个视频文本预训练模型,它扩展了BERT模型以处理视频和文本。VideoBERT使用预训练的ConvNet和S3D来提取视频特征并将它们与文本词嵌入连接起来,这些词嵌入被馈送到使用BERT初始化的转换器。在训练VideoBERT时,ConvNet和S3D被冻结,这表明该方法不是端到端的。最近,受ViT的启发,Frozen和Region-Learner首先将视频片段处理成帧,并根据ViT处理每一帧图像的方式获得补丁嵌入。Frozen和Region-Learner优化自身并以端到端的方式实现SOTA性能。下表2总结了更多现有的主流VLP模型:未来,在现有工作的基础上,研究人员希望VLP可以从以下几个方面进一步发展:结合声学信息,以往的多模态预训练研究大多强调语言和视觉的联合建模,同时忽略隐藏在音频中的信息;知识学习和认知,虽然现有的VLP模型已经取得了显着的性能,但它们本质上是在拟合大规模多模态Stateful数据集,使VLP模型更有知识对于未来的VLPs很重要;提示优化,通过设计离散或连续的提示并针对特定的下游任务使用MLM,这些模型可以降低微调大量参数的计算成本,弥合预训练和微调之间的差距。
