当前位置: 首页 > 科技观察

特拉维夫大学总结了StyleGAN以全面了解SOTA方法,架构的新发展

时间:2023-03-18 00:05:10 科技观察

GAN生成高分辨率图像的能力正在彻底改变图像合成和处理领域。2019年,Karras等人。提出了StyleGAN,它已经走到了图像合成的最前沿,被公认为最先进的高质量图像生成器。先来看看StyleGAN的合成效果:StyleGAN是无监督的,但是它的latentspace出奇的好。事实证明,StyleGAN表现非常好,甚至支持线性潜在算法。例如,它支持将年龄向量添加到一组潜在代码中,使图像中的人看起来更老。研究证明,StyleGAN不仅可以线性排列潜在空间,还可以以解缠的方式排列,并且其遍历方向仅改变特定图像属性而不影响其他属性。这些属性包括全局的、与领域无关的方面,例如视点,也包括特定于领域的属性,例如人脸的表情或性别、汽车颜色、狗的品种等(见图1和2)。在这篇论文中,来自特拉维夫大学的研究人员描述了StyleGAN迄今为止的成功,并分析了其严重的缺点。该研究首先讨论了网络架构本身,并分析了StyleGAN自成立以来在高级生成模型中所扮演的角色。之后,该研究讨论了训练StyleGAN所需的资源,并列出了一些关于减少、重用和回收这些资源的研究。论文地址:https://arxiv.org/pdf/2202.14020.pdfState-of-the-ArtinStyleGANArchitecture,MethodsandApplications本文分为8个小节:在第2节中,研究将描述构建了StyleGAN,并试图理解为什么这种架构会导致如此前沿的新兴技术,以及如何改进该架构以满足特定需求。第3节讨论了StyleGAN的潜在空间,展示了研究人员如何找到线性编辑方向并将其用于强大的语义编辑。传统上,一般的GAN,特别是StyleGAN,可以用来简单地生成不同风格的图像。这些可以用作下游训练的数据增强形式(参见第6节)。然而,研究表明,GAN倾向于平滑地排列它们的潜在空间,即潜在空间中的封闭区域绘制相似的图像。第4节主要讨论StyleGAN逆映射(inversion)。为了在StyleGAN域中表示给定的真实图像,研究人员提出了许多不同的方法,所有这些方法都深入分析和利用了生成器架构。一些研究人员提出了不同的方法,如潜在代码优化、应用数据驱动推理或寻找合适的输入种子向量,一些研究在推理路径的其他点与StyleGAN交互,从而大大提高了网络表达能力。StyleGAN潜在空间的良好行为特性在远离其良好采样分布的区域中减少。这意味着在实践中,给定真实图像,其重建质量(或失真)是以牺牲可编辑性为代价的。在这种重建-可编辑性权衡中找到不同的期望是本节的主要讨论点。将图像编码到StyleGAN潜在空间与图像逆映射本身相比具有许多优势。在许多应用中,被编码的图像并不是所需的潜在代码应该代表的内容。这种编码允许各种图像到图像的转换方法。在第4节中,该研究介绍并讨论了这种有监督和无监督的方法。在第6节中,该研究展示了StyleGAN的生成能力,并讨论了StyleGAN可以利用的判别能力,包括在可解释性、回归、分割等方面的应用。在大多数工作和应用中,预训练的StyleGAN生成器保持不变。然而,在第7节中,该研究介绍了最近关于微调StyleGAN生成器并修改其权重以弥合训练域(域内)或目标域之间的差距的工作。每个部分都针对新手和经验丰富的研究人员,并总结了最成熟和最有前途的方法以及如何使用它们。下面我们将介绍论文中的一些章节。StyleGAN架构开发StyleGAN1.TheStyle-BasedGeneratorArchitecture,简称StyleGAN,最初由Karras等人提出。2019年,StyleGAN架构的核心是样式调制层(stylemodulationlayers),StyleGAN的名字由此而来,可以生成高质量的图像数据,并实现高级的特征可控性。样式GAN2。随着StyleGAN的广泛使用,该模型的固有缺点被暴露出来,例如伪影。此外,研究人员观察到纹理粘附效应,即生成图像的某些属性(例如牙齿或眼睛)会表现出强烈的空间偏差,即使通过潜在空间插值也难以解决。在后续工作中,Karras等人的研究可以识别伪影来源并重新设计算法以改进网络。StyleGAN2专注于处理StyleGAN伪影,可以生成质量更好的图像数据。样式GAN3。起初,StyleGAN2似乎解决了纹理粘连问题。然而,研究人员通过仔细分析发现,虽然StyleGAN2已经解决了嘴巴或眼睛等大尺度物体,但在检查头发或胡须等更精细的细节时仍然存在问题。为了解决这个问题,Karras等人。寻找空间信息可能泄漏到卷积运算中的各种来源,目的是完全恢复网络的平移不变性。StyleGAN3的新颖架构[Karras等人。2021]带来了重大改进,从而实现了更平滑的插值。StyleGAN3对生成细节的控制令人惊叹。从根本上解决了StyleGAN2图像坐标和特征粘附问题,实现了图像平移、旋转等真正的不变性,大大提高了图像合成质量。当然,训练模型离不开数据,当代机器学习的一个公开秘密是,许多模型在标准基准上表现良好,但在实验室外无法泛化,StyleGAN也不例外。在StyleGAN中,学习域似乎需要一个严格的结构,而数据域应该是凸的,即每两点之间应该有有效样本进行插值。在最近的一项研究中,Sauer等人。证明了可以通过扩展模型来克服数据挑战,但是StyleGAN独特的潜在空间属性是否通过这种修改仍然存在仍然是一个悬而未决的问题。在未来,我们可能会看到更多关于显式数据问题的工作,即尝试将StyleGAN应用于其他类型数据的工作,通过在训练期间删除或添加示例以使数据的景观更平滑,或者更直接以更具体的方式处理数据中的多模态,或者通过将更精细的注意力机制合并到架构中。与普通的GAN不同,StyleGAN具有不止一个固有的潜在空间。此外,为了增加StyleGAN的表现力,通常使用这些空间的扩展,如图6所示。潜在空间编辑GAN学习最令人兴奋的方面也许是潜在空间的对齐方式。传统上,一般的GAN,尤其是StyleGAN,可用于简单地生成各种同质图像。这些可以用作下游训练数据增强的一种形式(见第6节)。然而,已经表明GAN倾向于平滑地排列它们的潜在空间,即潜在空间中的封闭区域描绘相似的图像。事实证明,遍历潜在空间也会产生所需的语义变化。这些变化包括视点、光照条件和特定领域属性(例如人脸表情、汽车颜色或建筑物宽度)的变化。当然,最理想的编辑是解耦编辑,即改变一个属性而不影响其他属性的编辑。这种强大的编辑工具的应用是无穷无尽的,从自动将微笑添加到面部图像,探索室内设计,再到快速设计汽车。StyleGAN在结构良好的数据上效果最好,并且在对这些数据进行训练时,StyleGAN以无监督的方式构建了一个高度分离的潜在空间,完全依赖于归纳偏差。在这项研究中,编辑艺术是多种多样的,呈现出从不同领域借鉴的创造性方法。应用虽然GAN具有强大的生成能力,尤其是StyleGAN,但人们可能会问哪些非生成任务可以使用GAN解决。在最基本的形式中,GAN能够生成大量图像,基本上都是从相同的目标分布中重新采样的,可用于下游训练任务的数据丰富和增强。事实上,早期的研究建议使用GAN作为增强工具来生成更多的训练数据。利用GAN的编辑功能,Chai等人。提出了一种通过在测试时增加输入图像来进行图像分类的集成方法。输入被投影到预训练生成器的潜在空间中,并对其应用样式混合等编辑操作以生成不同的视图。然后将生成的图像输入分类网络,模型的最终预测基于所有图像的网络预测集合。与深度学习中的传统集成不同,将多个模型的预测组合起来产生最终结果,此方法建议使用同一图像的不同视图(同时保留其身份)并集成分类器在测试时对图像的预测。为了以新的方式利用StyleGAN的语义理解,Peebles等人。提出了一种用于密集视觉对齐任务的新框架。如图11c所示。一旦两个操作收敛到一个视点,STN就可以用于对齐真实图像。另一个关键方面是避免扭曲图像的未编辑部分,通常称为保留原始身份。例如,编辑人脸上的笑容不应改变发型等属性。一些研究侧重于面部图像,可以使用面部识别网络评估身份。另一个问题是图像质量。StyleGAN的主要优势之一是高质量的视觉效果,编辑方法应旨在保留这一点。但是,编辑可能会导致编辑后的数据与真实数据存在较大偏差,从而导致评估不准确。如果可能,可以使用分类器或回归模型来平衡图像集合与某些属性之间的关系。Zhu等人提出了评估插值质量的方法,他们建议良好的可编辑性应该保持StyleGAN的高质量,即使对于插值图像也是如此,他们使用了FID度量。最后,一些研究利用用户研究来评估编辑质量,虽然这种方法提供了对编辑过程的深刻理解,但它是资源密集型的,并且容易受到不必要的操纵。直到今天,还没有广泛接受的基本运营质量评估指标。有关更多详细信息,请查看原始论文。