最近,AI画画火得一塌糊涂。当您惊叹于AI的绘画能力时,您可能不知道扩散模型在其中发挥了重要作用。以OpenAI的热门机型DALL·E2为例,只需输入简单的文字(提示),即可生成多张1024*1024的高清图片。在DALL·E2宣布后不久,谷歌随后发布了Imagen,这是一种文本到图像的AI模型,可以根据给定的文本描述生成逼真的场景图像。就在几天前,Stability.Ai公开发布了最新版的文本生成图像模型StableDiffusion,生成的图像达到了商业水平。自2020年谷歌发布DDPM以来,扩散模型逐渐成为生成领域的新热点。之后,OpenAI推出了GLIDE、ADM-G模型等,使得扩散模型大行其道。许多研究者认为,基于扩散模型的文本图像生成模型不仅参数少,而且生成的图像质量更高,很有可能取代GAN。然而,扩散模型背后的数学公式让很多研究者望而却步,很多研究者认为它比VAE和GAN更难理解。最近,GoogleResearch的研究人员写了一篇文章《 Understanding Diffusion Models: A Unified Perspective 》。本文以极其详细的方式展示了扩散模型背后的数学原理,以便其他研究人员可以遵循和理解什么是扩散模型及其工作原理。论文地址:https://arxiv.org/pdf/2208.11970.pdf至于这篇论文有多“数学”,论文作者是这样描述的:Weanditsexcruciatingdetailsshowthemathematics。论文分为6个部分,主要包括生成模型;ELBO、VAE和分层VAE;变分扩散模型;score-basedgenerativemodels等。以下摘自论文介绍:生成模型给定分布中的观察样本x,生成模型的目标是学习对其真实数据分布p(x)建模。学习模型后,我们可以生成新的样本。此外,在某些形式中,我们还可以使用学习模型来评估观察结果或样本数据。在目前的研究文献中,有几个重要的方向,本文仅在较高层次上简要介绍,主要包括:GAN,它对复杂分布的采样过程进行建模,以对抗方式学习。生成模型,我们也可以称之为“基于似然”的方法,可以将高似然分配给观察到的数据样本,通常包括自回归、归一化流和VAE。基于能量的建模,其中分布被学习为任意灵活的能量函数,然后被归一化。在基于分数的生成模型中,不是学习对能量函数本身建模,而是将基于能量模型的分数学习为神经网络。在这项研究中,我们探索并审查了扩散模型,正如本文所证明的那样,扩散模型具有基于可能性和基于分数的解释。变分扩散模型简单来说,变分扩散模型(VDM)可以被认为是具有三个主要约束(或假设)的马尔可夫分层变分自编码器(MHVAE),分别是:潜在维度恰好等于数据维度;每个时间步长的潜在编码器的结构都没有学习,它被预定义为线性高斯模型。也就是说,它是以前一个时间步的输出为中心的高斯分布;latentencoder的高斯参数随时间变化,过程中最后时间步T的latent分布是准高斯分布。变分扩散模型的可视化表示此外,我们明确地维护了标准马尔可夫分层变分自动编码器的分层转换之间的马尔可夫属性。他们扩展了上述三个主要假设中每一个的含义。从第一个假设开始,由于符号的滥用,真实数据样本和潜在变量现在可以表示为x_t,其中t=0代表真实样本数据,t∈[1,T]代表相应的潜在变量,并且其级别结构由t索引。VDM后验与MHVAE后验相同,但现在可以重写如下:从第二个假设可知,编码器中每个潜在变量的分布都是以先前分层的潜在变量为中心的高斯分布。与MHVAE不同的是,编码器在每个时间步长的结构是不学习的,它固定为线性高斯模型,其中均值和标准差都可以预先设置为超参数或作为参数学习。在数学上,编码器转换表示如下:对于第三个假设,α_t根据固定或可学习的时间表随时间演变,使得最终潜在变量p(x_T)的分布为标准高斯分布。然后可以更新MHVAE的联合分布以编写VDM的联合分布,如下所示:总的来说,这组假设描述了图像随时间演变的稳定噪声。研究人员通过添加高斯噪声逐渐破坏图像,直到它最终变得与高斯噪声相同。与任何HVAE类似,VDM可以通过最大化EvidenceLowerBound(ELBO)来优化,可以推导如下:ELBO的解释过程如下图4所示:三个等价的解释如前所述,一个变分扩散模型可以简单地通过学习神经网络来训练,以从任意噪声版本x_t及其时间索引t预测原始自然图像x_0。然而,x_0有两个等效的参数化,允许对VDM进行两种进一步的解释。首先,可以使用重新参数化技术。在推导q(x_t|x_0)的形式时,论文中的式69可以重新整理如下:将其代入之前推导的真去噪变换均值μ_q(x_t|x_0),可以重新推导如下:因此,设近似去噪变换均值μ_θ(x_t,t)如下:对应的优化问题变为:推导变分扩散模型的三种常见解释,需要求助于Tweedie公式,即当给定样本时,指数族分布的真实均值可以通过样本的最大似然估计(也称为经验均值)加上一些涉及估计分数的校正项来估计。在数学上,对于高斯变量z~N(z;μ_z,Σ_z),Tweedie公式表示如下:t)来预测得分函数?logp(x_t)。然而,推导中的评分项来自Tweedie公式的应用。这不一定能提供良好的直觉或洞察分数函数的实际含义或为什么值得建模。幸运的是,这种直觉可以借助另一类生成模型获得,即基于分数的生成模型。我们确实证明了先前派生的VDM公式具有等效的基于分数的生成建模公式,允许在两种解释之间灵活切换。为了理解为什么优化评分函数有意义,我们重新审视了基于能量的模型。任意灵活的概率分布可以写成如下:避免计算或建模归一化常数的一种方法是使用神经网络s_θ(x)来学习分布p(x)的得分函数?logp(x)。这是通过方程152两边的对数微分观察到的:它可以自由地表示为神经网络,而不涉及任何归一化常数。可以通过使用地面实况评分函数最小化Fisher散度来优化评分函数。直观上,评分函数在数据x的整个空间上定义了一个向量场,并指向模型,如下图6所示。最后,研究人员在训练目标和采样过程方面建立了变分扩散模型和基于分数的生成模型之间的明确联系。有关详细信息,请参阅原始论文。
