当前位置: 首页 > 科技观察

推理速度比StableDiffusion快2倍,图像生成和修复可以用Google模型完成,实现新的SOTA

时间:2023-03-16 14:44:08 科技观察

text-to-imagegeneration是2022年最火的AIGC方向之一,入选作为2022年十大科学被《science》突破。近日,来自谷歌的一篇新的文本到图像生成论文《Muse: Text-To-Image Generation via Masked Generative Transformers》引起了极大的关注。论文地址:https://arxiv.org/pdf/2301.00704v1.pdf项目地址:https://muse-model.github.io/本研究提出了一种使用maskedimagemodeling进行文本到图像合成的方法的模型,其中图像解码器架构以来自预训练和冻结的T5-XXL大型语言模型(LLM)编码器的嵌入为条件。与谷歌之前的Imagen模型类似,该研究发现,基于预训练的LLM进行调优对于逼真、高质量的图像生成至关重要。Muse模型建立在Transformer(Vaswanietal.,2017)架构之上。与基于级联像素空间扩散模型的Imagen(Sahariaetal.,2022)或Dall-E2(Rameshetal.,2022)相比,Muse由于使用了离散的token,效率显着提高。与SOTA自回归模型Parti(Yuetal.,2022)相比,Muse由于使用了并行解码,因此效率更高。根据在TPU-v4上的实验结果,研究人员估计Muse在推理速度上比Imagen-3B或Parti-3B模型快10倍以上,比StableDiffusionv1.4快2倍(Rombach等人,2022年)).研究人员认为Muse推理比StableDiffusion更快,因为在StableDiffusionv1.4中使用了扩散模型,显然在推理过程中需要更多的迭代。另一方面,Muse效率的提升并没有导致生成图像质量的下降和模型对输入文本提示语义理解能力的降低。该研究根据几个标准评估了Muse生成结果,包括CLIP评分(Radford等人,2021年)和FID(Heusel等人,2017年)。Muse-3B模型在COCO(Lin等人,2014年)零样本验证基准上获得0.32的CLIP分数和7.88的FID分数。来看看Muse生成效果:Text-imagegeneration:Muse模型根据文本提示快速生成高质量图片(在TPUv4上,512x512分辨率图片需要1.3秒,256x256分辨率图片需要0.5秒)。例如,生成“骑自行车的熊,栖息在车把上的鸟”:Muse模型通过以文本提示为条件对图像标记进行迭代重采样,为用户提供零样本、无遮罩的编辑。编辑)。Muse还提供基于蒙版的编辑,例如“湖上有一个凉亭,被美丽的秋叶照亮。”模型介绍Muse建立在许多组件之上,图3提供了模型架构的概述。具体来说,包括的组件有:预训练文本编码器:这项研究发现,利用预训练大型语言模型(LLM)可以提高图像生成的质量。他们假设Muse模型学习将LLM嵌入中丰富的视觉和语义概念映射到生成的图像。给定一个输入文本说明,本研究将其传递给冻结的T5-XXL编码器,从而产生一系列4096维语言嵌入向量。这些嵌入向量被线性投影到Transformer模型。使用VQGAN进行语义标记化:该模型的核心组件是使用从VQGAN模型获得的语义标记。其中,VQGAN由编码器和解码器组成,量化层将输入图像映射到学习码本中的一系列标记。该研究均使用卷积层来构建编码器和解码器,以支持对不同分辨率的图像进行编码。基本模型:基本模型是一个遮罩变换器,其中输入是嵌入和投影到T5的图像标记。该研究保留所有文本嵌入(未屏蔽),随机屏蔽不同比例的图像标记,并用特殊的[mask]标记替换它们。超分辨率模型:本研究发现使用级联模型是有益的:首先是生成16×16潜图(对应于256×256图像)的基础模型,然后是对基础模型进行上采样的超分辨率模型latentmaptomodel,这是一个64×64的latentmap(对应512×512的图像)。解码器微调:为了进一步提高模型生成精细细节的能力,本研究通过添加更多残差层和通道来增加VQGAN解码器的容量,同时保持编码器容量不变。然后微调新的解码器层,同时冻结VQGAN编码器权重、码本和转换器(即基础模型和超分辨率模型)。除了上述组件,Muse还包含可变掩码比组件、推理时迭代并行解码组件等,实验和结果如下表所示。与其他模型相比,Muse缩短了推理时间。下表是不同模型在零样本COCO上测得的FID和CLIP分数:如下表所示,Muse(632M(base)+268M(super-res)参数模型)在CC3M数据集上进行了训练和评估.SOTAFID评分为6.06。下图是Muse、Imagen、DALL-E2在同一提示下生成的结果示例。感兴趣的读者可以阅读论文原文了解更多研究细节。