本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。新的图像生成王扩散模型刚刚诞生。关于它的理论和实践仍在“疯狂生长”。来自NvidiaStyleGAN的原始课程作者挺身而出,试图给出一些设计扩散模型的技巧和指南。所得模型的质量和效率都得到了提升,例如将现有ImageNet-64模型的FID分数从2.07提高到接近SOTA的1.55分。他们的工作成果很快得到了行业领导者的认可。DeepMind研究人员称赞:这篇论文简直就是训练扩散模型的人必看的论文,不愧是一座金矿。三大贡献显着提高了模型的质量和效率。我们从以下几个方面来看StyleGAN的作者对扩散模型所做的三大贡献:,专注于在训练和采样阶段出现的“有形”对象和算法,可以更好地理解组件如何连接在一起以及它们在整个系统设计中可以使用的自由度(degreesoffreedom)。本质是下表:该表给出了在其框架中再现三个模型的某些变体的公式。(这三种方法(VP、VE、iDDPM+DDIM)不仅被广泛使用并达到SOTA性能,而且来自不同的理论基础。)这些公式原则上允许组件之间没有隐式依赖,在合理范围内选择任何单个宣传结果产生了一个功能模型。随机和确定性采样的改进作者的第二组贡献涉及扩散模型合成图像的采样过程。他们确定了最佳时间离散化(timediscretization),将高阶Runge-Kutta方法应用于采样过程,并在三个预训练模型上评估了不同的方法,分析了采样过程中的随机性。用处。因此,合成过程中所需的采样步骤数量显着减少,改进后的采样器可用作几种广泛使用的扩散模型的直接替代品。首先看确定性抽样。使用的三个测试模型还是上面三个,来自不同的理论框架和模型族。作者首先使用原始采样器实现来测量这些模型的基线结果,然后使用表1中的公式将这些采样方法引入到他们的统一框架中,然后进行改进。然后根据在50,000个生成的图像和所有可用的真实图像之间计算的FID分数评估质量。可以看出,原始的确定性采样器以蓝色显示,在它们的统一框架(橙色)中重新实现这些方法会产生相似或更好的结果。作者解释说,这些差异是由于原始实现中的某些疏忽,以及作者对离散噪声水平的更谨慎处理造成的。确定性采样有很多好处,但它产生的图像质量确实低于随机采样,随机采样在每一步都会向图像中注入新的噪声。但是笔者很好奇,假设ODE(常微分方程)和SDE(随机微分方程)在理论上恢复相同的分布,那么随机性有什么作用呢?在这里,他们提出了一种新的随机采样器,该采样器将现有的高阶ODE积分器与添加和消除噪声的显式“类似Langevin的‘搅动’”相结合。最终模型的性能得到了显着提升,仅通过改进采样器,ImageNet-64模型的原始FID分数可以从2.07提高到1.55,接近SOTA水平。预处理和训练作者的第三组贡献主要是分数建模神经网络的训练。这部分继续依赖于常用的网络架构(DDPM、NCSN),作者通过对扩散模型设置中网络输入、输出和损失函数的预处理进行原则性分析,得出改进训练动态的最佳实践。例如使用依赖于σ(噪声水平)的跳跃连接对神经网络进行预处理,以便它可以估计y(信号)或n(噪声)或介于两者之间的值。下表具体展示了模型彩影不同训练配置得到的FID分数。作者从使用确定性采样器(称为配置A)的基线训练配置开始,重新调整基本超参数(配置B),并通过移除最低分辨率层并将最高分辨率层的容量加倍来进行改进。模型的表现力(配置C)。然后用预处理(配置D)替换原来的{cin,cout,cnoise,cskip}选项。这使得结果基本保持不变,但VE在64×64分辨率下有了很大改进。这种预处理方法的主要好处不是改进FID本身,而是使训练更加鲁棒,从而将重点转移到重新设计损失函数而不会产生不利影响。VP和VE的区别仅在于Fθ的架构(配置E和F)。除其他事项外,作者建议在训练期间改进噪声水平分布,并发现GAN常用的非泄漏增强也有利于扩散模型。例如,从上表我们可以看出,有条件和无条件CIFAR-10的最新FID分别达到了1.79和1.97,打破了之前的记录(1.85和2.1046)。更多详情请查看原论文:https://arxiv.org/abs/2206.00364
