当前位置: 首页 > 科技观察

超越CLIP的多模态模型,只需要不到1%的训练数据!USC最新研究在这里

时间:2023-03-21 02:05:38 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。网络上流行的AI画画,你玩过吗?女娲无限版、DALL·E2、Imagen……这些通过文字生成图像的AI绘画工具,都是基于一种叫做“CLIP”的模型,这是AI如何“理解”人类语义的关键。CLIP(ContrastiveLanguage–ImagePre-training)是OpenAI于去年1月发布的一种基于对比图文学习的跨模态预训练模型。它很好用,但一个很大的问题是数据要求太大:4亿图文对,256个GPU,这对很多公司和个人来说很不友好。对此,南加州大学最新研究发现了一种基于本体的CurriculumLearning算法,只需不到1%的训练数据即可达到与CLIP相同的效果,甚至在图像检索方面表现更佳。新方法称为TOnICS(TrainingwithOntology-InformedContrastiveSampling),相关论文已上传至arXiv。原理介绍在介绍新方法之前,首先需要回顾一下CLIP。CLIP的模型结构其实很简单:它包括两部分,分别是文本编码器和图像编码器。两者分别编码后,将text和visualembeddings映射到同一个空间,利用contrastivelearning的思想来缩短匹配的picture-textEmbedding和不匹配的Embedding之间的距离。在此基础上,TOnICS不再从头训练图像和文本编码器,而是使用单模态预训练模型BERT进行文本编码,微软的VinVL进行图像编码,并使用InfoNCE损失函数将它们相互对齐。这是一种基于本体的课程学习算法,通过随机采样小批量从简单样本开始训练,并通过向图像和文本输入添加相似的小批量来逐步增加比较任务的难度。比如在随机抽样生成的小批量数据中,如果要找到“一只嘴里叼着飞盘在草地上奔跑的狗”,只需要先找到一张图片中有狗的图片即可,因为随机生成的图像包含狗的可能性很小。也就是说,随机小批量采样将比较任务减少为对象匹配。但是在小批量采样时,会抓到很多相似的图片,图片中有狗,所以只识别图片中是否有狗已经不能解决问题,模型必须共享上下文级信息的语言和视觉表示,导致更细粒度的对齐。此外,不同于CLIP从互联网上收集构建4亿图文对的数据集,BERT-VinVL模型只需要不到1%的训练量,但效果却丝毫不打折扣。研究人员在MS-COCO和ConceptualCaptions上训练了BERT-VinVL模型,并将该模型与CLIP在下游检索任务上进行了比较。实验结果发现,BERT-VinVL模型同样可以达到零样本学习效果,甚至在图像检索方面表现更好(R@1提高了1.5%)。研究团队该论文来自南加州大学的一个研究团队,作者是TejasSrinivasan、XiangRen和JesseThomason。第一作者TejasSrinivasan,第一年博士。南加州大学GLAMOUR实验室的学生,在多模式机器学习和语言基础领域跟随助理教授JesseThomason。他曾在微软研究院实习,并曾在人工智能基金会短暂担任NLP研究科学家。此前在卡内基梅隆大学语言技术学院完成硕士学位,在印度孟买理工学院获得机械工程学士学位,辅修计算机科学。