模型的参数规模相当,不需要那么大。从年初OpenAI刷新社区的DALL-E到Nvidia的GauGAN2生成写实摄影,文字生成图像可谓是今年大火的一个研究方向。现在OpenAI有了新的进展——拥有35亿参数的新模型GLIDE。如下图1所示,GLIDE通常会产生逼真的阴影和反射,以及高质量的纹理。此外,该模型能够结合多个概念(例如柯基犬、领结和生日帽),同时将属性(例如颜色)绑定到这些对象。除了从文本生成图像外,GLIDE还具有图像编辑功能——使用文本提示修改现有图像,必要时插入新对象、阴影和反射,如下图2所示。比如在草坪上添加斑马:如下图3所示,GLIDE对零样本复杂场景的生成和修复能力也很强。GLIDE还能够将草图转换为逼真的图像编辑。例如,下面这张“戴着领结和生日帽的柯基犬”的图片是从涂鸦草图转换为逼真的图像。上面的功能是如何实现的呢?在新模型GLIDE中,OpenAI将引导扩散应用于从文本生成图像的问题。首先,该研究使用文本编码器训练了一个以自然语言描述为条件的35亿参数扩散模型,然后比较了两种将扩散模型引导至文本提示的方法:CLIP引导和无分类器引导。通过人工和自动评估,该研究发现无分类器指导可以产生更高质量的图像。论文地址:https://arxiv.org/pdf/2112.10741.pdf项目地址:https://github.com/openai/glide-text2im本研究发现使用无分类器引导模型生成的样本既真实又实用反映了广泛的现实知识。人类评估结果表明,GLIDE在生成结果方面优于DALL-E。另外值得注意的是,DALL-E有120亿个参数,而GLIDE只有35亿个参数,却取得了更好的性能。让我们仔细看看GLIDE的模型细节。Text-conditionaldiffusionmodelwith35亿参数:GLIDEOpenAI训练了一个text-conditionaldiffusionmodelwith35亿参数(text-conditionaldiffusionmodel),图像分辨率为64×64,和一个text-conditionalupsamplingwith15亿参数Diffusionmodel(text-conditionalupsamplingdiffusionmodel),将图像分辨率提高到256×256。对于CLIP制导(CLIPguidance),OpenAI还训练了一个噪声感知的64×64ViT-LCLIP模型。文本条件扩散模型OpenAI采用了Dhariwal&Nichol(2021)提出的ADM模型架构,但增加了文本条件信息。对于每个噪声图像x_t和相应的文本说明,模型预测p(xt?1|xt,caption)。为了以文本为条件,OpenAI首先将文本编码为K个标记序列,然后将这些标记输入到Transformer模型中(Vaswani等人,2017年)。这个转换器的输出有两个目的:首先,使用最终的标记嵌入而不是ADM模型中的类嵌入;其次,将最后一层的tokenembedding(一系列K个特征向量)分别投影到ADM模型中的每个注意力层,然后连接到每个层的注意力上下文。OpenAI使用与DALL-E完全相同的数据集来训练模型,并使用与Dhariwal&Nichol(2021)提出的ImageNet64×64模型相同的模型架构,模型通道为512,产生大约23亿张图像对于模型参数的视觉部分。对于TextEncodingTransformer,OpenAI使用了24个残差块,产生了大约12亿个参数。此外,OpenAI训练了一个15亿参数的上采样扩散模型,图像分辨率从64×64提高到256×256。该模型也以文本为条件,但使用宽度更小的文本编码器1024(而不是2048)。在没有分类器指导的情况下微调模型在模型的初始训练完成后,可以微调基础模型以支持无条件图像生成。训练过程与预训练完全相同,只是将20%的文本标记序列替换为空序列。通过这种方式,模型保留了生成文本条件输出的能力,同时还可以无条件地生成图像。图像修复和编辑以前关于图像修复的工作存在一个缺点,即模型在采样过程中无法看到整个上下文信息。为了获得更好的生成效果,OpenAI对模型进行了微调:微调时随机擦除训练样本的部分区域,其余部分作为附加条件信息与mask通道一起输入到模型中。OpenAI通过添加四个额外的输入通道修改了模型架构:第二组RGB通道和一个遮罩通道。在微调之前,OpenAI将这些新通道的相应输入权重初始化为零。对于上采样模型,OpenAI提供完整的低分辨率图像,但为未屏蔽区域提供高分辨率图像。CLIP引导扩散鉴于分类器引导和CLIP引导之间的相似性,应用CLIP来提高文本条件扩散模型的生成质量似乎很自然。为了更好地匹配Dhariwal&Nichol(2021)的分类器引导技术,OpenAI使用图像编码器训练噪声感知CLIP模型,该图像编码器接收噪声图像以64×64分辨率训练模型。实验结果该研究将GLIDE与之前的SOTA模型进行了定性比较,结果如下图5所示。GLIDE无需CLIP重新排序或拾取即可生成更逼真的图像。定量结果该研究首先通过观察图像质量保真度权衡的帕累托前沿来评估无分类器指导和CLIP指导之间的差异。下面的图6评估了这两种方法在64×64分辨率下的零样本MS-COCO生成。本研究中设置的人类评价实验如下:人们看两张256×256的图像,并根据以下两个标准选择一张更好的图像:要么与给定的标题更匹配,要么看起来更逼真。评价结果如下图7所示。将人类评估结果与下表1的结果进行对比,研究发现人类和CLIP指导给出的分数不一致,因此classifier-free指导可以产生与人类认知一致的更高质量的生成结果。此外,研究人员将GLIDE与其他文本生成图像模型进行了比较,结果如下表2所示。GLIDE在MS-COCO上获得了有竞争力的FID。最后,该研究使用上述人类评估实验装置对GLIDE和DALL-E进行了比较,结果如下表3所示。请注意,GLIDE的训练使用与DALL-E大致相同的训练计算,但模型要小得多(35亿个参数对120亿个参数),需要更少的样本延迟,并且不需要CLIP重新排序。
