CLIP不接地?你需要一个更懂中文的模型。最好的结果是在零样本图像分类等多项任务中取得的。同时,所有代码和模型均已开源,用户可以使用Modak快速上手。模型使用入口:https://modelscope.cn/models/damo/multi-modal_clip-vit-base-patch16_zh/summaryGithub:https://github.com/OFA-Sys/Chinese-CLIP论文:https://arxiv.org/pdf/2211.01335.pdf图文检索demo:https://modelscope.cn/studios/damo/chinese_clip_applications/summary1。Introduction在当前的互联网生态中,多模态相关的任务和场景数不胜数,例如图文检索、图像分类、视频图文内容等场景。近几年,风靡全网的形象代更盛,迅速出圈。在这些任务的背后,显然需要一个强大的图形理解模型。OpenAI在2021年推出的CLIP模型相信大家都不陌生。通过简单的图文双塔对比学习和大量的图文语料,该模型具有显着的图文特征对齐能力。在跨模态检索中效果突出,也被用作DALLE2、StableDiffusion等图像生成模型的关键模块。但遗憾的是OpenAICLIP的预训练主要使用英文世界的图形数据,自然无法支持中文。即使社区中有研究人员通过翻译文本提炼出Multilingual-CLIP(mCLIP)的多语言版本,仍然不能很好地满足中文世界的需求,中文领域的文本理解不是很好,比如搜索对于“春联”,却返回圣诞节相关的内容:mCLIP搜索demo搜索“春联”返回结果这也说明我们需要一个更懂中文的CLIP,不仅懂我们的语言,还懂图像华人世界的。2.方法达摩院研究人员收集了大规模的中文图文对数据(约2亿规模),包括来自LAION-5B中文子集的中文数据、Wukong,以及来自COCO和VisualGenome文本数据的翻译图像等。.大部分训练图文来自公开数据集,大大降低了复现难度。在训练方法上,为了有效提高模型的训练效率和效果,研究人员设计了一个两阶段的训练过程:中文CLIP方法示意图如图所示。第一阶段,模型使用已有的图像预训练模型和文本预训练模型分别初始化Chinese-CLIP双塔,并冻结图像侧参数,使语言模型可以与已有的关联图像预训练表示空间,同时减少训练开销。随后在第二阶段解冻图像侧的参数,从而将图像模型和语言模型关联起来,对中国特色的数据分布进行建模。研究人员发现,与从头开始进行预训练相比,该方法在多个下游任务上显示出明显更好的实验结果,其明显更高的收敛效率也意味着更少的训练开销。相较于全程只训练文本端做一阶段训练,加入二阶段训练可以有效进一步提升对图文下游任务的效果,尤其是母语图文任务(不是从英文数据集翻译而来)。在MUGE中文电商图文检索和Flickr30K-CN翻译版通用图文检索两个数据集上,随着预训练的继续观察零样本的效果变化趋势。利用这一策略,研究人员训练了多个尺度的模型,从最小的ResNet-50、ViT-Base和Large,到ViT-Huge,现已全部开放,用户可以根据需要使用最适合自己场景的模型:3.实验大量实验数据表明,Chinese-CLIP在中文跨模态检索中可以取得最好的性能。在中文原生电商图片检索数据集MUGE上,多尺度的ChineseCLIP取得了该尺度的最佳性能。在英文原生的Flickr30K-CN等数据集上,中文CLIP无论是零样本的设置还是fine-tuning,都能明显超过国产的Wukong、Taiyi、R2D2等baseline模型。这很大程度上是由于Chinese-CLIP的中文预训练图语料库较大,而Chinese-CLIP不同于国内现有的一些图形表示模型。为了最小化训练成本,Chinese-CLIP采用了twoPhase训练策略,更好的适应中文领域:MUGE中文电商图文检索数据集实验结果Flickr30K-CN中文图文检索数据集实验结果在同时,研究人员在零样本图像分类数据集上验证了ChineseCLIP的效果有所提升。由于中文领域权威的零样本图像分类任务不多,目前研究人员正在英文翻译版的数据集上进行测试。在这些任务上,Chinese-CLIP可以通过中文提示和类别标签实现与CLIP相当的性能:Zero-shotclassificationexperimentresultsZero-shotimageclassificationexample4.如何快速使用Chinese-CLIP?非常简单,只需点击文章开头的链接访问Mota社区或使用开源代码,几行代码即可完成图形特征提取和相似度计算。为了快速使用和体验,Mota社区提供了配置好环境的notebook,点击右上角即可使用。Chinese-CLIP也支持用户使用自己的数据进行finetune。同时也提供了图文检索的demo供大家体验各种尺度的Chinese-CLIP模型的效果:该项目为中文多模态研究提供了一个优秀的预训练图文理解模型和行业用户,帮助大家快速上手图文特征&相似度计算、图文检索、无门槛零样本分类,并可以尝试构建图像生成等更复杂的多模态应用。想在中国多式联运领域大展拳脚的朋友,千万不要错过!而这只是Mota社区的应用之一。ModelScope让很多AI领域的基础模型发挥应用基础的作用,支持更多创新模型、应用甚至产品的诞生。
