当前位置: 首页 > 科技观察

从单个自然图像学习扩散模型优于GAN,SinDiffusion实现了新的SOTA

时间:2023-03-19 11:52:40 科技观察

从单个自然图像生成图像的技术被广泛使用,因此受到越来越多的关注。本研究旨在通过捕获补丁内部统计数据从单个自然图像中学习无条件生成模型,以生成具有相似视觉内容的不同样本。经过训练,该模型不仅可以生成无限分辨率的高质量图像,还可以轻松适应各种应用,例如图像编辑、图像协调和图像到图像的转换。SinGAN可以满足上述要求,它可以构造多个尺度的自然图像,并训练一系列GAN来学习单个图像中块的内部统计信息。SinGAN的核心思想是在递增的尺度上训练多个模型。然而,这些方法生成的图像可能不尽如人意,因为它们在细节上存在小规模错误,导致生成的图像中出现可见的伪影(见图2)。在这篇论文中,来自中国科学技术大学、微软亚洲研究院等机构的研究人员提出了一个新的框架——SinDiffusion,Single-imageDiffusion,用于从单个自然图像中学习,它是在去噪的基础上完成的扩散概率模型(DDPM,DenoisingDiffusionProbabilisticModel)。虽然扩散模型是一个多步(multiple-step)的生成过程,但它并没有遇到累积误差的问题。原因是扩散模型有系统的数学公式,中间步骤的错误可以看作是扰动,可以在扩散过程中进行改进。SinDiffusion的另一个核心设计是限制扩散模型的感受野。本研究回顾了以往扩散模型[7]中常用的网络结构,发现它具有强大的性能和深层结构。然而,该网络结构具有足以覆盖整个图像的感受野,导致模型倾向于记忆训练图像,从而生成与训练图像完全相同的图像。为了鼓励模型学习补丁统计而不是记忆整个图像,精心设计了网络结构并引入了补丁式去噪网络。与之前的扩散结构相比,SinDiffusion减少了原有去噪网络结构中的下采样数量和ResBlocks数量。通过这种方式,SinDiffusion可以从单个自然图像中学习并生成高质量和多样化的图像(见图2)。论文地址:https://arxiv.org/pdf/2211.12445.pdf项目地址:https://github.com/WeilunWang/SinDiffusionSinDiffusion的优点是可以灵活运用于各种场景(见图1).它可以用于各种应用程序而无需对模型进行任何重新训练。在SinGAN中,下游应用主要通过将条件输入不同规模的预训练GAN来实现。因此,SinGAN的应用仅限于那些给定的空间对齐条件。相比之下,SinDiffusion可以通过设计采样程序用于更广泛的应用。SinDiffusion通过无条件训练学习预测数据分布的梯度。假设评分函数(即L?p距离或预训练网络,如CLIP)描述生成的图像和条件之间的相关性,本研究使用相关性评分的梯度来指导SinDiffusion的采样过程。通过这种方式,SinDiffusion能够生成符合数据分布和给定条件的图像。对各种自然图像进行了实验,以证明所提出框架的优势,包括风景和著名艺术。定量和定性结果都证实了SinDiffusion可以产生高保真和多样化的结果,而下游应用进一步证明了SinDiffusion的实用性和灵活性。方法不同于以往研究中的渐进式增长设计,SinDiffusion采用单一尺度的单一去噪模型进行训练,防止误差累积。此外,本研究发现扩散网络的块级感受野在捕获内部块分布方面起着重要作用,并设计了一种新的去噪网络结构。基于这两个核心设计,SinDiffusion从单一的自然图像生成高质量和多样化的图像。本节的其余部分组织如下:首先我们回顾SinGAN并展示SinDiffusion的动机,然后介绍SinDiffusion的结构设计。先简单回顾一下SinGAN。图3(a)显示了SinGAN的生成过程。为了从单张图像生成不同的图像,SinGAN的一个关键设计是构建图像金字塔,并逐渐提高生成图像的分辨率。图3(b)是SinDiffusion的新框架。与SinGAN不同,SinDiffusion使用单一规模的单一降噪网络执行多步生成过程。虽然SinDiffusion也像SinGAN一样使用多步生成过程,但生成的结果质量很高。这是因为扩散模型是基于数学方程的系统推导,中间步骤产生的误差在扩散过程中被反复细化为噪声。SinDiffusion这篇论文研究了生成多样性和去噪网络感受野之间的关系——修改去噪网络的网络结构可以改变感受野,并设计了四种感受野不同但性能相当的网络结构,在一个单一的自然image训练这些模型。图4显示了不同感受野下的模型生成结果。可以观察到,感受野越小,SinDiffusion产生的生成结果越多样化,反之亦然。但研究发现,极小的感受野模型无法保持图像的合理结构。因此,一个合适的感受野对于获得合理的补丁统计是重要且必要的。本研究重新设计了常用的扩散模型,并引入了用于单图像生成的patch-wise去噪网络。图5是SinDiffusion中的patch-wise去噪网络的概述,并显示了与以前的去噪网络的主要区别。首先,通过减少下采样和上采样操作来降低去噪网络的深度,从而大大扩展了感受野。同时,原本在去噪网络中使用的深度注意力层被自然去除,使SinDiffusion成为适合任意分辨率生成的全卷积网络。其次,通过减少每个分辨率中嵌入时间的重新块,进一步限制了SinDiffusion的感受野。使用这种方法获得具有适当感受野的逐块去噪网络会产生真实而多样的结果。实验SinDiffusion随机生成图像的定性结果如图6所示。可以发现,在不同的分辨率下,SinDiffusion可以生成与训练图像具有相似模式的真实图像。此外,本文研究了如何从单个图像生成高分辨率图像的SinDiffusion。图13显示了训练图像和生成的结果。训练图像是一张486×741分辨率的风景图像,包??含云、山、草、花和湖等丰富的成分。为了适应高分辨率图像生成,SinDiffusion已升级为具有更大感受野和网络能力的增强版本。增强版的SinDiffusion生成分辨率为486×2048的高分辨率长滚动图像。生成效果的结果保持训练图像的内部布局不变,并引入新的内容,见图13。与以前方法的比较表1显示了SinDiffusion与几种具有挑战性的方法(即SinGAN、ExSinGAN、ConSinGAN)相比产生的定量结果和GPNN)。与之前基于GAN的方法相比,SinDiffusion在逐步改进后实现了最先进的性能。值得一提的是,本文的研究方法大大提高了生成图像的多样性。在Places50数据集上训练的50个模型的平均值,本文的方法超过了当前最具挑战性的方法。除了定量结果外,图8还显示了Places50数据集的定性结果。图15显示了SinDiffusion和以前方法的文本引导图像生成结果。有关详细信息,请参阅原始论文。