本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。OpenAI年底刚刚推出的新作GLIDE,让扩散模型再次流行起来。这种基于扩散模型的文本图像生成模型参数规模较小,但生成的图像质量较高。于是,依旧由OpenAI出品、论文标题直接号称“在图像生成中打败GAN”的ADM-G模型也重新进入大众视野:看看图像生成榜单就知道了PaperswithCode上基于ImageNet数据集的模型,从64x64到512x512的分辨率都被这个模型所统治:与曾经号称史上最强图像生成器的BigGAN-deep相比,毫不逊色,并且它甚至可以在LSUN和ImageNet64×64中生成图像。达到SOTA。有网友对此感叹:前几年图像生成领域一直是GAN的天下,现在看来要变成扩散模型了。具有类别条件的扩散模型让我们首先看一下扩散模型的定义。这是一种新的图像生成方法,其名称中的“扩散”本质上是一个迭代过程。具体到推理,它从一张完全由噪声组成的图像开始,预测每一步滤除的噪声,迭代去噪得到高质量的样本,然后逐渐加入更多的细节。OpenAI的ADM-G模型在此基础上为图像生成任务增加了类别条件,形成了独特的消融扩散模型。研究人员在以下几个方面做了改进:基础架构在UNet结构的基础上做了五点改进:在保持模型尺寸不变的前提下,增加深度和宽度,增加注意力头(AttentionHead)的数量为32×32、16×16和8×8分辨率都使用attention机制,使用BigGAN残差块对激活函数进行上采样和下采样,减少残差连接(ResidualConnections)到原来的1/root2类别指南(ClassifierGuidance)在逐渐将噪声转化为信号的过程中,研究人员引入了一个预训练的分类网络。它可以为中间生成图像预测并得到一个标签,即它可以对生成的图像进行分类。之后根据分类得分和目标类别之间的交叉熵损失计算梯度,用梯度来指导下一代采样。ScalingClassifierGradients通过超参数缩放分类网络梯度,以控制生成图像的多样性和准确性。比如像这样,左边是大小为1.0的分类网络,右边是大小为10.0的分类网络。可以看出右边生成的图像在类别上更一致:即分类网络的梯度越高,类别越一致,accuracy值越高,diversity会越小.生成领域的新热点目前该模型在GitHub上有近千星:与GAN相比,扩散模型生成的图像更加多样和复杂。基于相同的训练数据集,扩散模型可以生成全景、局部特写、不同角度的图像:△左:BigGAN-deep右:ADM事实上,自从谷歌在2020年发布DDPM以来,扩散模型已经逐渐成为生成领域的新热点,除了文中提到的OpenAI的两篇论文外,还有SemanticGuideDiffusion、Classifier-FreeDiffusionGuide等几种基于扩散模型设计的生成模型。扩散模型在未来视觉任务中会有新的应用吗?来年再看吧。论文链接:https://arxiv.org/abs/2105.05233开源链接:https://github.com/openai/guided-diffusion
