当前位置: 首页 > 科技观察

华为诺亚开源首个亿级中文多模态数据集,填补了中文NLP社区的空白

时间:2023-03-16 19:27:55 科技观察

在大数据上预训练大型模型并微调下游任务已成为人工智能系统的新兴范式。BERT和GPT等模型在NLP社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而产生了SOTA性能。最近的作品,如CLIP、ALIGN和FILIP,进一步将这种范式扩展到视觉语言联合预训练(VLP)领域,并在各种下游任务上显示出优于SOTA方法的结果。这个有前途的方向引起了业界和研究人员的极大关注,将其视为通往下一代人工智能模型的途径。VLP模型的成功有两个原因。一方面,更高级的模型架构(例如ViT/BERT)和训练目标(例如对比学习)通常会提高模型的泛化能力和学习表征的鲁棒性。另一方面,由于硬件和分布式训练框架的进步,越来越多的数据可以输入到大规模模型中,以提高模型的泛化性、可迁移性和零样本能力。在视觉或语言任务中,在大规模数据(如图像分类中的JFT-300M,T5中的C4数据集)上进行预训练,然后通过迁移学习或提示学习进行学习,已被证明非常有效地提高了下游任务的执行。有用。此外,最近的工作显示了VLP模型在网络上超过1亿个嘈杂的图像文本对上训练的潜力。因此,在大规模数据上预训练的VLP模型的成功促使人们不断爬取和收集更大的图形数据集。下面的表1显示了VLP领域中许多流行数据集的概览。Flickr30k、SBUCaptions和CC12M等公开可用的视觉语言(英语)数据集的样本量相对较小(约1000万),而较大的数据集如LAION-400M。但是,直接使用英文数据集训练模型会导致中文翻译任务的性能大幅下降。例如,大量特定的中文成语和俚语无法被英文翻译覆盖,而机器翻译往往会在这些方面带来错误,进而影响任务执行。目前,社区缺乏大规模公开可用的中文数据集,这不仅阻碍了社区的发展,而且使用私人大型数据集也取得了其他作品无法公平比较的惊人性能。为了弥合这一差距,华为诺亚方舟实验室的研究人员发布了一个名为“悟空”的大型中文跨模态数据集,其中包含来自网络的1亿个图像文本对。为确保多样性和泛化性,Wukong数据集是从200,000个高频中文词列表中收集的。本文还采用基于图像和基于文本的过滤策略进一步细化悟空数据集,使其成为迄今为止最大的中文视觉语言跨模态数据集。研究人员分析了数据集并表明它涵盖了广泛的视觉和文本概念。论文地址:https://arxiv.org/pdf/2202.06767.pdf数据集地址:https://wukong-dataset.github.io/wukong-dataset/benchmark.html研究人员还进一步发布了一组不同的架构(ResNet/ViT/SwinT)和不同的方法(CLIP、FILIP和LiT)大型预训练模型。本文的主要贡献如下:发布了1亿图文对的大规模视觉和中文预训练数据集,涵盖了更全面的视觉概念;发布了一组使用各种流行架构和方法的预训练图像大型视觉语言模型,并提供了针对已发布模型的综合基准;已发布的预训练模型在几个中文基准测试任务上表现良好,例如由17个数据集和5个数据集组成的零镜头图像分类任务和组合图像文本检索任务,表现出最好的性能。“Wukong”数据集研究人员构建了一个名为Wukong的新数据集,其中包含从网络收集的1亿个图像文本对。为了涵盖足够多的视觉概念,Wukong数据集是从包含200,000个术语的查询列表中收集的。这个基本查询列表取自严松等人的论文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根据华为海量新闻文本语料库中的中文单词和短语的出现频率进行过滤。查询列表建立后,研究人员在百度图片上搜索每个查询,获得图片网址列表和相应的标题信息。为了在不同查询的结果之间保持平衡,他们每次查询最多搜索1000个样本。然后使用先前获得的图像URL下载图像,总共收集了1.66亿个图像文本对。然后,像往常一样,研究人员通过以下一系列过滤策略构建最终的Wukong数据集。下面的图2显示了Wukong数据集中的一些样本。基于图像的过滤研究人员首先根据图像的大小和纵横比对数据进行过滤。仅保留长于或宽于200像素且宽高比为3或更小的图像。这种方法会过滤掉太小、太高或太宽的图像,因为这些图像在预训练期间经过上采样和方形裁剪等图像增强后可能会变得低分辨率。基于文本的过滤其次,为了使选取的样本具有对应图像的高质量中文描述,研究人员进一步根据图像所附文字的语言、长度和频率对数据进行过滤。具体来说,他们首先检查语言和长度,保留包含至少一个但少于32个汉字的句子。无意义的图像描述如“000.jpg”也被丢弃。之后搭配太多图片的文字通常与图片内容无关,比如“查看源码页面”、“展开文字”、“摄影社区”。在实践中,研究人员将这个阈值设置为10,即丢弃整个收集到的语料中出现次数超过10次的图文对。为了保护文本中个人的隐私,研究人员将人名替换为特殊标签“<人名>”。此外,他们还构建了中文敏感词列表,包含敏感词的图文对也被丢弃。在应用上述过滤策略后,研究人员最终得到了大约1亿对的数据集。下面的表2显示了数据集的统计数据:数据集文本中有20,442个独特的标记,每个描述中的平均标记数为22。在下面的图3中,研究人员可视化了单词的分布(由一个或多个组成令牌)在数据集中。然后,他们使用中文文本分词工具Jieba截取单词并构建数据集的词云。方法架构文本-图像联合对齐与最近经过充分验证的方法类似,研究人员采用对比预训练架构,如下图1所示。他们使用带有基于Transformer的文本和图像编码器的双流模型。这两个编码器将文本和视觉输入标记转换为相同维度的嵌入。在这个学习的联合嵌入空间中,我们使用对比损失来鼓励图像和文本对具有相似的嵌入,而未配对的对具有不同的嵌入。模型架构由于视觉和文本模态的编码器是解耦的,因此可以为这两种模态探索不同的编码器架构。研究人员试验了三种视觉编码器变体(即ResNet、VisionTransformer和SwinTransformer)和一种类似BERT的文本编码器来训练中文VLP模型。预训练目标跨模态对比学习是一种特别有效的方法,用于从成对的图像文本数据训练模型,它可以通过区分成对和未成对的样本同时学习两种模态的表示。研究人员遵循FILIP(Yaoetal.,2022)中的公式符号,用于定义图像样本的集合,同时表示文本数据。给定一个图像样本和一个文本样本,该模型的目标是使成对的图像和文本表示在联合多模态空间中接近,而未成对的则远离。在这项工作中,研究人员探索了两种方法来衡量图像和文本之间的相似性。图像和文本的学习表示分别表示为和。这里,n_1和n_2是每个图像和文本中(未填充的)词标记的数量。LiT-tuning研究人员受到最近提出的微调范式LiT-tuning(锁定图像文本调整)的启发,它表明权重固定图像编码器和可学习文本编码器在VLP模型中效果最好。他们在对比学习设置中做了同样的事情,只更新了文本编码器的权重而不是图像编码器。具体来说,研究人员采用的LiT-tuning方法旨在教会中文文本编码器从现有的图像编码器中读取合适的表示,该图像编码器已在英文数据集上进行了预训练。他们还为每个编码器添加了一个可选的可学习线性变换层,它将两种模态的表示映射到相同的维度。LiT-tuning效果很好,因为它解耦了用于学习图像特征和视觉语言对齐的数据源和技术(Zhai等人,2021b)。此外,图像描述符使用相对干净或(半)手动标记的图像预先进行了很好的预训练。我们将这个想法扩展到多语言数据源,并尝试将在英语数据源上预训练的固定图像编码器与可训练的中文文本编码器对齐。此外,LiT-tuning方法显着加快了训练过程并减少了内存需求,因为它不需要为视觉编码器计算梯度。实验结果下面的表3描述了视频编码器的模型参数和细节。零样本图像分类。研究人员在17个零镜头图像分类任务上评估了预训练模型。零样本图像分类结果如下表5所示。他们比较了使用不同视觉编码器的多个LiT调整模型,即从CLIP或SwinTransformer加载现有的视觉编码器并在训练阶段固定它们的权重。结果发现,使用令牌级别的相似性比使用全局相似性带来更显着的改进。文本检索任务。研究人员评估了两个子任务,即按图像搜索文本和按文本搜索图像。下面的表6和表7分别显示了零镜头设置和微调图像文本检索的结果。对于零样本设置,与其他模型相比,Wukong_ViT在4个数据集中的3个上取得了最好的结果,而Wukong_ViT-500M在更大的MUGE数据集上取得了最好的结果。对于微调设置,Wukong_ViT-500M在除AIC-ICC之外的所有数据集上都取得了最好的结果,其中Wukong_ViT效果最好。词汇-瓷砖对齐的可视化。研究人员使用预训练模型Wukong_ViT和Wukong_Swin进行可视化。如图4所示,它可视化了来自ImageNet的带有六个标签(即豆娘、救生艇、蜂鸟、平板手机、教堂和电扇)的中文图像。然后应用与FILIP(Yao等人,2022)相同的可视化方法来对齐文本和图块标记。从下面的图4中,研究人员发现这两个模型都能够预测目标对象的图像块。对于具有更多图像块的Wukong_ViT,这种词汇块对齐比Wukong_Swin更细粒度。