当前位置: 首页 > 科技观察

OpenAI的新论文击败GAN达到SOTA!这种霸气的扩散模型到底是噱头还是干货

时间:2023-03-12 12:57:30 科技观察

FaceAPP最近火了一把,我也下载来体验一下。没关系,有点意思。FaceAPP的背后是基于生成对抗网络(GAN)的图像生成技术。自2014年诞生以来,尤其是人脸生成方面的Deepfake,GAN几乎完全主导了图像生成领域的研究和应用。然而,GAN难以训练并且容易出现模式崩溃等问题。别人用Deepfake“模型”生成的视频和自己用Deepfake“魔术”生成的视频。因此,新的SOTA模型就是为了解决GAN的这些问题而诞生的。OpenAI的两名研究人员PrafullaDhariwal和AlexNichol专注于其他系统。建筑学。在他们最新的论文《DiffusionModelDefeatsGANinImageSynthesis》中,提出的扩散模型架构解决了GAN的缺点,在图像生成任务上击败了GAN,达到了SOTA的水平。不得不说,他们在标题中用了“Beat”(节拍)二字,野心还是很大的!“在ImageNet512x512上获得了3.85的FID,不仅可以保持媲美BigGAN的水平,还可以将每个样本的前向传播减少到25个,同时对分布有更好的覆盖。”无意间搜索了一下,全文有15个“state-of-the-art”,除了两三个描述GAN(要么打败了,要么有转机),其他基本都是描述自己的新模型。不管这是否是SOTA,笔者认为无论如何都必须是。时间回到三个月前很有意思,在引文中,有一篇论文的作者也是同一两位。今年2月,他们发表了一篇名为《改进的降噪扩散概率模型》的论文,其中也有与GAN的对比,但此时的GAN还没有被“打败”。没想到,三个月后,他们表示成功了一篇新论文,看来效率还是挺快的。同样是1亿参数的模型,BigGAN-Deep在FID上的表现明显优于作者此时训练的DDPM。但是,用2.7亿参数训练的两个模型强行赢了一波。去噪扩散概率模型(DDPM)——改进的扩散模型是另一类深度学习模型,在图像生成任务上也表现良好。与学习将随机噪声图像映射到训练分布中的点的GAN不同,扩散模型采用噪声图像,然后执行一系列去噪步骤,逐步降低噪声并产生属于训练分布的图像数据。DDPM允许更快的采样和更好的对数似然,而对采样质量的影响很小。通过增加训练计算量,可以带来更好的样本质量和对数似然。“我们惊讶地发现改进后的模型可以使用更少的样本,”作者说。难怪作者会把25次前向采样作为重点宣传对象。更多信息请参考论文:https://arxiv.org/pdf/2102.09672.pdf“新”扩散模型三个月后,Dhariwal和Nichol决定进行一次丢人的举动,再次改进扩散模型的架构,从而可以进一步提高模型的性能。按比例增加深度和宽度,使模型尺寸相对恒定。增加注意力头的数量。在32×32、16×16和8×8中添加注意力层。使用BigGAN的残差模块对激活进行上采样和下采样。调整残差连接的规模。增加注意力头的数量或减少每个头的通道数可以提高FID。经过比较,模型最终选择使用128个基本通道、每个分辨率2个残差模块、多分辨率注意力和BigGAN上/下采样,并训练模型进行700K次迭代,每个注意力头通道64个。对于ImageNet128×128模型,随着分类器梯度的变化,样本质量也会发生变化。当梯度高于1.0时,可以在精度和召回率之间获得平滑的权衡。当BigGAN-deep切断变化时进行权衡。结果和评估OpenAI的Diffusion模型在每项任务中都获得了最高的FID分数,并且在除一项任务之外的所有任务中都获得了最高的sFID分数。改进后的模型结构可以在LSUN和ImageNet64×64上得到SOTA图像生成结果。对于更高分辨率的ImageNet,该模型优于最佳GAN。在这一点上,该模型可以实现类似GAN的感知质量,同时保持高覆盖率(通过召回率衡量),即使只有25个扩散。看来作者对这25次前向传播的结果真的很满意。生成模型的样本质量比较。ADM指的是文中的扩散模型,ADM-G是加了一个分类器。左边是BigGAN-deep模型的结果,中间是OpenAIDiffusion模型的结果,右边是原始训练集的图像。上图给出了类似的印象,但研究人员解释说扩散模型从训练集中获得了更多信息:“虽然样本的感知质量相似,但扩散模型包含的内容比GAN多,例如鸵鸟头。一张头部特写,一只火烈鸟,一个不同角度的芝士汉堡,还有一条没人拿着的鱼。”作者结论扩散模型可以获得比GAN更好的样本质量。改进后的架构足以在无条件图像生成任务上实现SOTA,分类器引导技术使模型能够进一步提高类条件任务的样本质量。扩散模型可以减少GAN和扩散模型在采样时间上的差距,但是在采样过程中仍然需要多次前向传播。最后,通过将引导程序与上采样相结合,可以实现高分辨率图像合成的最先进结果。就在这时,又一个转折点。其实作者自己也承认,目前的扩散模型在训练计算上比GAN高,采样速度不如GAN,在单步模型上无法和GAN抗衡。最重要的是,文章中的分类器引导技术仅限于标记数据集,作者没有提供有效的策略来权衡未标记数据集的准确性和多样性。网友也评论说“从计算的角度来看,扩散模型比GAN消耗的多,无论是内存还是步数”。由此看来,GAN在短时间内仍将主导图像生成领域。