当前位置: 首页 > 科技观察

ImageGenerationBasedonDiffusionModel

时间:2023-03-12 09:47:40 科技观察

Part01发展历程●1.1起源2015年在DeepUnsupervisedLearningusingNonequilibriumThermodynamics一文中提出,当时的生成模型,比如VAE,有很大的难度,就是这类模型是先定义条件分布,再定义变分后验去适配,最终会导致需要同时优化条件分布和变分后验,但这非常困难。如果我们可以定义一个简单的过程来将数据分布映射到标准高斯分布,那么“生成器”的任务就变成了对这个过程逆过程的每一个小步骤的简单拟合。这就是扩散模型的核心思想。不过这篇文章在当时并没有掀起什么波澜。1.2开发时间来到2020年,基于之前的思路,提出了DDPM模型(DenoisingDiffusionProbabilisticModels)。与基本的扩散模型相比,作者结合扩散模型和去噪分数来指导训练和采样过程。它在生成图像样本方面带来了适度的提升,训练起来更容易、更稳定,最终的结果可以与GAN模型相媲美。图2-DDPM生成结果然而,DDPM模型并不完美。由于扩散过程是一个马尔可夫链,其缺点是需要比较多的扩散步骤才能获得比较好的效果,导致样本生成速度慢。.于是继DDPM之后,时间来到了2021年。Song等人。提出DDIM(DenoisingDiffusioinImplicitModel),对DDPM扩散过程的采样方式进行改造,将传统的马尔可夫扩散过程扩展为非马尔可夫过程,可以使用更小的采样步骤来加速样本生成,大大提高效率。后续工作也有一些改进,将扩散模型与传统生成网络相结合,如VAE与DM模型的结合,GAN+DM的结合等,笔者在此不再赘述。1.3爆炸2022年,谷歌推出了基于扩散模型的全新AI系统,可以将文字描述转化为逼真的图像。图3和图4可以从谷歌给出的示意图中看出。输入文本首先被编码,然后通过文本到图像的扩散模型转换为64*64的小图像。进一步,利用超分辨率扩散模型对小图像进行处理,在进一步的迭代过程中提高图像的分辨率,得到最终的生成结果——1024*1024的最终图像。这个神奇的过程就像您使用它时的感觉一样。输入一段文字——一只身穿红色圆点高领毛衣、头戴蓝色方格帽的金毛犬,然后程序会自动生成你上面看到的狗狗图片。另一个流行的现象级应用——novalAI,最初是一个专门做AI写作的网站。它基于当前火热的图像生成,结合互联网上的图像资源,训练出一个专注于二次元的图像生成。模型,从效果上来说,已经开始具备了人类画家的水平。图5中,除了传统的输入文字生成图片,还支持输入图片作为参考,让AI根据已知图片生成新图片,一定程度上解决了AI生成结果不可控的问题。Part02●原理讲解●那么,如此强大的AI技术的工作过程是怎样的呢?这里我们以比较经典的DDPM模型为例,简单介绍一下过程:2.1前向过程前向过程是在图片中加入噪声,目的是构造训练样本GT的过程。对于给定的初始数据分布x0~q(x),我们逐渐将高斯噪声添加到数据分布中。这个过程有T次,每一步的结果是x1,x2,...,xt,噪声表示的标准差,那么加噪声的过程可以表示为:如上所述,这是一个马尔可夫链过程。最终,数据趋于各向同性的高斯分布。2.2逆扩散过程逆扩散过程是去噪过程。如果已知,则可以从完整的标准高斯分布中恢复x0。已经证明,如果高斯分布满足且足够小,它仍然是高斯分布,那么就不能简单地推断出来,所以我们用一个参数为的深度学习模型来预测它,所以有:如果x0已知,那么通过贝叶斯公式:2.3训练过程如果了解机器学习的读者应该知道,所有模型模型的训练就是优化模型的参数,从而得到可靠的均值和方差.我们最大化模型预测分布的对数似然,即DDPM模型经过一系列推导得到最终的损失函数表达式:总结一下训练过程:1.获取输入x0,从1..中随机采样一个t2.T,从标准高斯分布中采样一个噪声3.计算损失并迭代最小化损失函数图6Part03●总结●扩散模型显示出巨大的潜力。与VAE模型相比,它不需要对齐后验分布,也不需要像GAN那样额外训练判别器。它在计算机视觉、生物信息学、语音处理等方面有着广泛的应用,其在图像生成中的应用,将有助于提高图像创作的效率。它可能会让人工智能根据条件生成几张图片,人类会对结果进行过滤和修改。这将是未来二维绘画领域的一种全新的工作模式。可以大大提高二维数字资产的生产效率。然而,随着AI技术的发展,总会有一些争议,图像生成领域也不例外。除了AI技术本身的问题,比如生成的图片结构错误、不合理,还存在一些法律纠纷。比如AI作品本身的版权问题。技术问题可以通过技术本身的发展来解决。我们有理由相信,随着人工智能技术的发展,图像生成最终会达到一个非常高的水平,这将淘汰大部分低端的绘画相关工作,极大地释放人类的生产力。版权问题可能还是需要政府部门对相关产业的发展给予足够的重视,完善相关政策和制度,我们需要更多地思考新兴领域,让人工智能技术更好地为我们服务。参考资料https://github.com/Yutong-Zhou-cv/Awesome-Text-to-Imagehttps://lilianweng.github.io/posts/2021-07-11-diffusion-models/#forward-diffusion-processhttps://link.zhihu.com/?target=https%3A//gweb-research-imagen.appspot.com/paper.pdf