谷歌发布最新零样本学习模型,从图学说话,多种类型任务直接上手。谷歌新推出的SimVLM,一种弱监督的看图说话模型,可以轻松实现零镜头学习(zero-shot)任务迁移。从用文字描述图像到回答有关图像的问题,该模型无需微调即可完成所有工作。对于一般的视觉语言预训练(VLP)模型,训练数据集中需要大量准确的标签。模型的任务迁移需要为特定任务重新标记数据集。综上所述,标注数据集不仅费时费力,而且对多任务处理也不通用。能否开发出简单通用的VLP模型?谷歌新开发的这个模型使用弱监督学习来进行模型训练。通过使用大量弱对齐的图文对进行建模,简化了VLP的训练过程,大大降低了训练的复杂度。SimVLM以前缀语言建模的单一目标进行端到端训练,并直接将原始图像作为输入。这些设置允许模型利用大规模弱标记数据集,从而实现更好的零样本学习泛化。SimVLM模型是如何实现的?SimVLM模型的预训练过程采用前缀语言建模(PrefixLM)的单一目标,它接受序列的前缀作为输入并通过模型解码器预测其连续内容。对于数据集中的图像-文本对,图像序列可以看作是其文本描述的前缀。这种方法可以简化训练过程,并最大限度地提高模型在适应不同任务设置方面的灵活性和通用性。模型的骨干网络采用了在语言和视觉任务上都表现突出的Transformer架构。contextpatch是从输入的原始图像数据中提取出来的,这里使用了ResNet卷积网络。如上图所示:在视觉模式下,图片被分成多个patch,然后压缩成一维序列。文本模态句被映射到表示向量中。该模型使用含有约1.8B噪声的图像文本对ALIGN训练集进行预训练,以达到更好的零样本学习泛化能力。为了补偿训练集中的噪声影响,训练模型还使用了总共??800G的ColossalCleanCrawledCorpus(C4)数据集。SimVLM模型的基本性能如何?模型预训练完成后,需要在多模态任务中对模型进行微调,以测试性能。这里使用的多模态任务有:VQA、NLVR2、SNLI-VE、COCOCaption、NoCaps和Multi30KEn-De。将SimVLM模型与现有全功能模型进行对比,测试结果如上表所示。参与评估的SimVLM模型也包括三个不同的规模:8600万个参数、3.07亿个参数和6.32亿个参数。在跨模态任务的测试结果中,SimVLM模型的性能是最好的(数据越大越好),除了CoCoCaption的B@4指标,其他任务上都取得了新的SOTA结果,充分证明了模特性的先进性。SimVLM模型零样本泛化SimVLM模型在跨模态任务测试中可以取得很好的性能,那么它能否成功进行零样本跨模态迁移呢?预训练的SimVLM模型只对文本数据进行微调或根本不对文本数据进行微调,并在图像字幕、多语言字幕、开放式VQA和可视化文本生成等任务上对模型进行了测试。测试结果如下图所示:给定一张图片和一段文字提示,预训练模型无需微调即可预测图片内容。此外,未经微调的模型在德语字幕生成、数据集外答案生成、基于图像内容的文本描述、开放式视觉问答等应用上表现良好。为了量化SimVLM的零样本学习性能,使用预训练的固化模型在COCOCaption和NoCaps上进行解码,然后与监督标准基线进行比较(Sup.)。从结果对比来看,即使不进行有监督微调,SimVLM也能达到有监督训练质量的水平。作者简介本研究的第一作者是谷歌学生研究员王子瑞,目前就读于卡内基梅隆大学。以第一作者身份在ICLR、EMNLP、CVPR等顶级会议发表多篇论文。截至2020年12月20日,他在SuperGLUE数据集上取得了超越人类分数的第一个SOTA成绩(90分以上),目前被百度团队反超,排名第二。此次开发的SimVLM在六项视觉语言基准测试中也取得了单模型SOTA性能,实现了基于文本引导的零样本学习的泛化能力。
