神经网络实际上是在学习一种表示。在CV领域,良好的视觉和视觉语言(visionandvision-language)表示对于解决计算机视觉问题(图像检索、图像分类、视频理解)至关重要,可以帮助人们解决日常生活中的难题。例如,一个好的视觉语言匹配模型可以帮助用户通过文本描述或图像输入找到最相关的图像,也可以帮助像GoogleLens这样的设备找到更细粒度的图像信息。为了学习这样的表示,当前最先进的视觉和视觉语言模型在很大程度上依赖于需要专业知识和广泛标签的训练数据集。对于视觉相关的应用场景,视觉表征主要在具有显式类标签的大规模数据集上学习,如ImageNet、OpenImages、JFT-300M等。对于视觉语言的应用,常用的预训练数据集,如作为ConceptualCaptions和VisualGenomeDenseCaptions,需要大量的数据收集和清理,这限制了数据集的大小,从而阻碍了训练模型的规模化。相比之下,NLP模型通过在不使用人工标签的情况下对原始文本进行大规模预训练,在GLUE和SuperGLUE基准测试中实现了sota性能。在ICML2021会议上,GoogleResearch发表了文章Scalingupvisualandvision-languagerepresentationlearningwithnoisytextsupervision,建议使用公共图像而不是文本数据(如果图像无法在用户屏幕上显示,则将替代方案显示在网页从图像中写入文本)来弥合这一差距,以训练更大、最先进的视觉和视觉语言模型。为此,我们利用了超过10亿个图像和文本对的嘈杂数据集,这些数据集是在概念说明数据集中没有昂贵的过滤或后处理步骤的情况下获得的。实验结果表明,我们语料库的大小可以弥补噪声数据的不足,从而实现SotA表示,并在转移到ImageNet和VTAB等分类任务时表现出良好的性能。对齐的视觉和语言表示还在Flickr30K和MS-COCO基准测试中设置了新的SotA结果,甚至与更复杂的交叉注意模型相比,并且支持零镜头图像分类和复杂文本和文本+图像查询的交集模式搜索。图形数据集中的替代文本通常是关于图像的描述,但数据集可能包含噪声,例如某些描述文本可能部分或完全与其配对图像无关。例如,第二张图片包含一些与图片无关的描述,如日期、缩略图等。谷歌的研究工作主要是按照构建ConceptualCaptions数据集的方法来获取原始的英文描述文本数据,即成对的图像和alt-text。尽管概念字幕数据集已经通过广泛的过滤和后处理进行了清理,但本文的工作通过放宽数据清理措施来扩展数据集,这是一种扩展视觉和视觉语言表示学习的方法。结果是一个更大但更嘈杂的数据集,包含18亿个图像文本对。ALIGN:ALarge-scaleImaGeandNoisy-TextEmbedding为了便于建立更大的模型,模型框架使用简单的双编码器结构来学习图像和文本对的视觉和语言表示的对齐表示。图像和文本编码器通过对比学习进行训练,即归一化softmax。这种对比损失使匹配的图像-文本对的嵌入尽可能接近,同时尽可能分离那些不匹配的图像-文本对(在同一批次中)。大规模数据集让我们可以训练更多参数的模型,甚至可以从头开始训练像EfficientNet-L2和BERT-large这样大的模型。学习到的视觉表示可用于下游视觉和视觉语言任务。生成的表示可用于纯视觉或视觉语言任务的迁移学习。无需任何微调,ALIGN就能够跨模式搜索图像到文本、文本到图像,甚至联合搜索图像+文本查询。上面的例子演示了ALIGN的这种能力。评估检索和表示在评估检索和表示学习时,ALIGN模型与BERT-Large和EfficientNet-L2一起作为文本和图像编码器,可用于多个图像文本检索任务(Flickr30K和MS-COCO)ZeroShot任务和fine-tuning都实现了sota性能。ALIGN也是一个强大的图像表示模型。修复特征后,ALIGN略优于CLIP,在ImageNet上取得了85.5%的SotA结果。通过微调,ALIGN比BiT和ViT等大多数通用模型获得了更高的精度,仅比MetaPseudoLabels差,但后者需要ImageNet训练与大规模未标记数据之间更深入的交互。在零样本图像分类中,图像分类问题将每个类别视为一个独立的id,并且必须通过为每个类别拍摄至少几张标记数据来训练分类层次结构。但类名实际上是一个自然语言短语,因此可以在没有任何训练数据的情况下自然扩展ALIGN图像分类的图文检索能力。在ImageNet验证数据集上,ALIGN取得了76.4%的top-1Zero-shot准确率,并且在不同的ImageNet变体中表现出很强的鲁棒性,这与同期CLIP的工作非常相似。文本提示用于训练。为了说明图像检索的实际效果,论文中还搭建了一个简单的图像检索系统,使用了ALIGN训练的embedding,展示了1.6亿中少数文本查询的top1text-to-imagetranslation图像池搜索结果。ALIGN可以检索提供场景详细描述或细粒度或实例级概念(如地标和艺术品)的精确图像。这些示例表明ALIGN模型可以使图像和文本具有相似的语义,并且ALIGN可以泛化到新的复杂概念。用于多模式(图像+文本)图像搜索查询的词向量的一个令人惊讶的特性是词类比通常可以用向量算法来解决。一个常见的例子,“king-man+woman=queen”。图像和文本嵌入之间的这种线性关系也出现在ALIGN中。具体来说,给定一个查询图像和一个文本字符串,将它们的ALIGN嵌入相加,并使用余弦距离检索相关图像。这些示例不仅说明了ALIGN嵌入在视觉和语言领域的组合性,而且还展示了使用多模式查询进行搜索的可行性。例如,人们现在可以寻找相当于“澳大利亚”或“马达加斯加”的熊猫,或者将一双黑色鞋子变成看起来完全相同的米色鞋子。此外,还可以通过在嵌入空间中执行减法来删除场景中的对象/属性。在社会影响方面,虽然这项工作从方法论的角度来看以简单的数据收集方法显示出令人满意的结果,但对数据的进一步研究和进一步分析的结果模型。例如,应该考虑是否有可能在alt中使用有害的文本数据来强化危害。关于公平性,可能需要努力平衡数据,以防止网络数据强化刻板印象。应对敏感的宗教或文化对象进行额外的测试和培训,以了解和减轻可能被错误标记的数据的影响。还应进行进一步分析,以确保人类和相关文化对象(如服装、食物和艺术品)的人口分布不会导致模型性能失真。如果这些模型要用于生产环境,则需要对其进行分析和平衡。综上所述,GoogleResearch提出了一种使用大规模图形数据进行视觉和视觉语言表示学习的简单方法。模型ALIGN能够进行跨模态检索,并且明显优于SotA模型。在纯视觉下游任务中,ALIGN也可以媲美或优于使用大规模标记数据训练的SotA模型。这篇文章的第一和第二作者是贾超和杨银飞两位中国人,他们各自的研究方向是CV和NLP。可以看到,神经网络让NLP和CV的界限更加模糊,什么都可以嵌入。
