当前位置: 首页 > 科技观察

最后,有人对各种StyleGANs做了一个大总结

时间:2023-03-17 14:21:33 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。StyleGAN在各种图像处理和编辑任务上表现惊人。但是,要“做一种工作”,又要换系统重新“训练”,太麻烦了。最后有人仔细研究发现:实际上,StyleGAN只需要通过预训练和对latentspace的一个小操作,就可以直接上手各种“工作”,包括全景图生成、单图生成、特征插值、图像到图像的转换等。更何况它在这些“工作”上的表现丝毫不逊色于每一个单独的SOTA玩家。笔者趁机综合整理,写了一篇论文。相关讨论直接在reddit上获得了700+的热度:网友感叹:这总结真爽!AllYouNeed:Pre-training+一点空间操作方法很简单,我们一一来吧。前提:fi∈RB×C×H×W表示StyleGAN第i层的中间特征。1.直观逼真的图像的空间操作由于StyleGAN是全卷积的,我们可以调整fi的空间维度,使输出图像发生相应的空间变化。通过简单的空间操作(例如填充和调整大小),可以生成更直观和逼真的图像。例如下图,通过复制灌木丛和灌木丛来扩展背景。与原始调整大小导致纹理模糊等缺陷相比,特征空间中可以保持更逼真的纹理。2.特征插值拼接StyleGAN的中间层可以实现图像信息的混合,但是当要拼接的两张图像差异太大时,效果往往不好。但是特征插值是没有问题的。具体操作方法:在每个StyleGAN层中,使用不同的latentnoise分别生成fAi和fBi。然后使用下面的公式将它们平滑混合,然后传递到下一个卷积层进行相同的操作。其中α∈[0,1]B×C×H×W是mask,如果用于水平混合,mask会从左到右变大。与相应模型的定性和定量比较:特征插值方法能够无缝融合两幅图像,而铃木等人的结果。遭受重大文物。在用户研究中,与Suzuki等人相比,87.6%的人也更喜欢该方法。用户研究包括40人,每人需要在不同方法下比较25对图像。3.从单幅图像生成除了在不同图像之间插值特征外,我们还可以在单??幅图像中应用它。工作原理:在某些要素层中,选择相关块并将其与其他区域混合,进行空间复制。使用移位算子Shift():这个和SinGAN一样,但是SinGAN涉及采样,这种方法只需要手动选择patch进行特征插值。与SinGAN的定性和定量比较:该方法生成的图像更加多样化和逼真;SinGAN未能以“有意义”的方式改变教堂结构,并产生不切实际的云彩和风景。在用户研究中,83.3%的人更喜欢这种方法生成的新图像。4.改进的GAN反演GAN反演的目的是在W+空间中定位一个风格代码(stylecode),通过它合成一个与给定目标图像相似的图像。Wulff等人的模型。认为,在简单的非线性变换下,W+空间可以用高斯分布建模。但是在属性迁移设置中,需要将源图和参考图对调,效果并不理想。最近的研究表明,与W+相比,使用σ在面部操作方面表现更好。但作者发现,不做任何变换的σ空间也可以建模为高斯分布。然后在这个空间而不是在GAN反演期间应用相同的高斯先验。性能比较:该方法在图像重建和可编辑性方面取得了显着改进。5.图像到图像的转换受益于σ空间上部的影响。作者建议freeze在image-to-imagetranslation的过程中生成一个σ的仿射变换层(affinetransformationlayer)。这种简单的改变可以更好地保留图像翻译语义(注意下图d中嘴巴的形状)。此外,作者发现:(1)可以在所有空间维度上使用常数α进行连续翻译;(2)局部图像平移,通过选择区域进行特征插值;(3)改进的GAN反演被用于对真实人脸进行人脸编辑和翻译。这样得到的效果也比较好。6.全景图生成作者通过“编织”两幅图像的混合(span)来生成全景图,如图:重复这个过程可以生成任意长度的全景图。并且该方法不限于同时混合两个图像,也不限于仅在水平方向上生成。一些例子:7.Attributetransfer为了让特征插值更好地用于任意人物姿态图像的属性传递,作者选择在源图像和参考图像之间进行姿态对齐,具体对齐前2048个W+空格样式码尺寸。然后可以应用特征插值将所选特征从源图像传输到目标图像。与现有方法相比:Collins等人的方法不能准确传递细节属性,Suzuki等人。当姿势不匹配时,生成的图像不够逼真。而且作者的方法既准确又真实。基于真实性和准确性的用户选择结果进一步验证了该方法的优越性。附言。此外,还可以进行任意区域的迁移,比如无缝混合两边眼睛明显不同的两半人脸:以上不需要特定的架构或训练范式,进行一些操作和微调在StyleGAN模型潜在空间中,可以与其他图像处理任务的特定方法进行比较,以达到同等或更好的性能。你感觉如何?还有什么需要补充的吗?论文地址:https://arxiv.org/abs/2111.01619项目地址:https://github.com/mchong6/SOAT