本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。文字图片不需要数据,但AI能学会读文字和做图吗?来自bytes的最新text2image模型可以做到。实验数据表明,其效果比VQGAN-CLIP更真实,尤其是泛化能力远优于许多使用大量文本-图像数据训练的模型。嗯?在没有文字标注的情况下,AI是如何知道每张图片代表什么的?这个模型是如何训练的?无需文本训练即可从文本生成图像。首先,选择这种方法的原因,作者说,是因为收集大量带有文本的图像数据集的成本太高。一旦我们摆脱了对文本图像数据的需求,我们就可以直接使用大型无文本图像数据集(如ImageNet)来训练强大而通用的文本图像生成器。bytes实现的模型叫做CLIP-GEN。它是如何运作的?一共有三个步骤。首先,对于没有文本标签的图像,使用CLIP的图像编码器提取图像在语言-视觉(language-vision)联合嵌入空间(embeddingspace)中的embedding。接下来,图像被转换为??VQGAN码本空间中的一系列离散标记。也就是用自然语言一样的方式来表示图像,方便后续用Transformer进行处理。其中,充当图像标记器的VQGAN模型可以使用手头未标记的图像数据集进行训练。最后,训练自回归Transformer将图像标记从Transformer的语言-视觉统一表示映射到相应的图像。经过这样的训练,面对一串文本描述,Transformer可以根据从CLIP的文本编码器中提取的文本嵌入生成相应的图像标记。那么这样一个没有文本数据参与训练的文本图像生成器,效果会好吗?性能媲美清华CogView。作者分别在ImageNe和MSCOCO数据集上训练和评估了CLIP-GEN。首先,在MS-COCO验证集中生成带有六个文本描述的样本。CLIP-GEN等大量文本图像对训练的text2image生成模型效果如下:其中,VQGAN-CLIP的结果比较不真实,并伴有严重的形状失真。清华大学的CogView声称比DALL-E更好。这里的实验,确实可以生成很好的图像结构,但是在纹理细节上差点出问题。DF-GAN可以生成具有丰富细节的合理图像,但也容易出现局部伪影。笔者认为,与这些对比机型相比,CLIP-GEN的图像细节更丰富,画质也更高。比如它解释了第二组课文中要求的“水中倒影”(但我不懂“三只毛绒熊”的数字概念)。定量实验结果基本证明了这个结论:CLIP-GEN得到了最高FID-0和FID-1得分;CapS得分(衡量输入文本和生成图像之间的语义相似度)比CogView低4%,并且比其他模型高很多。此外,作者还发现,CLIP-GEN的泛化能力貌似不错,在下面这组非常规的文字描述中,比如生成“一只会飞的企鹅”、“一只抽着雪茄的狗”、“一个有脸有头发的柠檬”……CLIP-GEN基本可以实现,其他模型但是不太懂作者介绍这个模型的五位作者都是字节跳动的,第一位王子豪,毕业于北京理工大学,本科加州大学伯克利分校博士。他曾担任软件工程师在谷歌工作了3年的开发工程师,现在在TikTok工作。通讯作者为易子立,毕业于南京大学,获学士和博士学位。加拿大纽芬兰纪念大学毕业。目前在字节跳动担任人工智能专家(主要研究多模态、超分辨率、人脸特效)。在此之前,他曾在华为工作。论文地址:https://arxiv.org/abs/2203.00386
