近年来,基于Transformer的大规模多模态训练带动了不同领域state-of-the-art的提升,包括视觉、语言和音频。特别是在计算机视觉和图像语言理解方面,单个预训练的大型模型可以胜过特定任务的专家模型。然而,大型多模态模型通常使用模态或特定于数据集的编码器和解码器,并因此导致涉及的协议。例如,此类模型通常涉及不同阶段,即使用特定于数据集的预处理在各自的数据集上训练模型的不同部分,或者以特定于任务的方式传输不同部分。在引入新的预训练损失或下游任务时,这种模式和特定于任务的组件可能会导致额外的工程复杂性和挑战。因此,开发一个可以处理任何模态或模态组合的单一端到端模型将是多模态学习向前迈出的重要一步。在这篇论文中,来自苏黎世GoogleResearch(GoogleBrain团队)的研究人员将主要关注图像和文本。论文地址:https://arxiv.org/pdf/2212.08045.pdf许多关键的统一加速了多模态学习的过程。首先,确认Transformer架构可以作为通用主干,在文本、视觉、音频等领域表现良好。其次,许多论文探索将不同的模态映射到一个共享的嵌入空间,以简化输入/输出接口,或为多个任务开发一个接口。第三,模态的替代表示允许在一个域中使用在另一个域中设计的神经架构或训练程序。例如,[54]和[26,48]分别表示文本和音频,通过将这些形式渲染为图像(在音频情况下为频谱图)进行处理。本文探讨了使用纯像素模型进行文本和图像的多模态学习。该模型是一个单独的VisionTransformer,它处理视觉输入或文本,或两者兼而有之,所有这些都呈现为RGB图像。所有模态都使用相同的模型参数,包括低级特征处理;也就是说,没有模态特定的初始卷积、标记化算法或输入嵌入表。该模型只接受一项任务的训练:对比学习,由CLIP和ALIGN推广。因此,该模型被称为CLIP-PixelsOnly(CLIPPO)。在CLIP设计用于图像分类和文本/图像检索的主要任务上,CLIPPO的表现也与CLIP相似(相似度在1-2%以内),尽管没有特定的塔式模型。令人惊讶的是,CLIPPO可以执行复杂的语言理解任务,而无需任何从左到右的语言建模、掩码语言建模或显式词级损失。特别是在GLUE基准测试上,CLIPPO优于经典的NLP基线,例如ELMO+BiLSTM+attention。此外,CLIPPO还优于基于像素的掩码语言模型并接近BERT的分数。有趣的是,CLIPPO在简单地一起渲染图像和文本时也可以在VQA上取得良好的性能,尽管从未对此类数据进行过预训练。基于像素的模型相对于常规语言模型的一个直接优势是不需要预先确定词汇表。因此,与使用经典分词器的等效模型相比,多语言检索的性能有所提高。最后,该研究还发现,在某些情况下训练CLIPPO时,先前观察到的模态差距有所减小。方法概述CLIP已成为一种强大的、可扩展的范例,用于在数据集上训练多用途视觉模型。具体来说,这种方法依赖于图像/替代文本对,它们可以从网络上大规模自动收集。因此,文本描述通常是嘈杂的,并且可能包含单个关键字、关键字集或可能很长的描述。使用这些数据,两个编码器被联合训练,一个文本编码器嵌入替代文本,一个图像编码器在共享潜在空间中嵌入相应的图像。这两个编码器使用对比损失进行训练,对比损失鼓励相应图像和替代文本的嵌入相似,同时不同于所有其他图像和替代文本嵌入。一旦经过训练,这样的编码器对可以以多种方式使用:它可以用文本描述对一组固定的视觉概念进行分类(零样本分类);嵌入可用于在给定文本描述的情况下检索图像,反之亦然;或者,可以通过对标记数据集进行微调或通过在冻结图像编码器表示上训练头部,以监督方式将视觉编码器转移到下游任务。原则上,文本编码器可以用作独立的文本嵌入,但据我们所知,还没有人深入探索过这种应用,一些研究指出,由于替代文本质量低,文本编码器的语言建模性能不佳.先前的工作表明,图像和文本编码器可以使用共享转换器模型(也称为单塔模型或1T-CLIP)来实现,其中使用补丁嵌入嵌入图像,使用单独的词嵌入嵌入标记化文本。除了模态特定的嵌入外,所有模型参数都为两种模态共享。虽然这种类型的共享通常会导致图像/图像语言任务的性能降低,但它也会将模型参数的数量减少一半。CLIPPO将这个想法更进一步:文本输入呈现在空白图像上,然后将其完全作为图像处理,包括初始补丁嵌入(参见图1)。针对先前工作的训练产生了一个单一的视觉转换器模型,可以通过一个单一的视觉界面理解图像和文本,并提供了一种可用于解决图像、图像语言和纯语言理解任务的方法。单一代表。除了多模态的多功能性,CLIPPO还减轻了文本处理的一个常见困难,即开发适当的分词器和词汇表。这在大规模多语言环境中尤其有趣,其中文本编码器必须处理数十种语言。可以发现,在图像/替代文本对上训练的CLIPPO在公共图像和图像语言基准上的表现与1T-CLIP相当,并且在GLUE基准上与强基线语言模型竞争。然而,由于替代文本质量低,通常不是语法句子,仅从替代文本学习语言理解从根本上是有限的。因此,可以将基于语言的对比训练添加到图像/替代文本对比预训练中。具体来说,需要考虑从文本语料库中采样的连续句子对、不同语言的翻译句子对、翻译后句子对以及缺少单词的句子对。实验结果视觉和视觉语言理解图像分类和检索。表1显示了CLIPPO的性能,从中可以看出,与CLIP*相比,CLIPPO和1T-CLIP的收益率绝对下降了2-3个百分点。质量保证。图2报告了模型和基线的VQAv2分数。可以看出,CLIPPO的性能优于CLIP*、1T-CLIP和ViT-B/16,得分为66.3。MultilingualVision-LanguageUnderstanding图3显示CLIPPO实现了与这些基线相当的检索性能。在mT5的情况下,使用额外的数据可以提高性能;在多语言环境中利用这些额外的参数和数据将是CLIPPO未来一个有趣的方向。语言理解表2显示了CLIPPO和基线的GLUE基准测试结果。可以观察到,在WebLI上训练的CLIPPO与BiLSTM+Attn+ELMo基线(具有在大型语言语料库上训练的深度词嵌入)相比具有竞争力。此外,我们还可以看到CLIPPO和1T-CLIP的性能优于使用标准对比语言-视觉预训练训练的语言编码器。有关研究的更多详细信息,请参阅原始论文。
