最后，有人对各种StyleGANs做了一个大总结

时间：2023-03-17 14:21:33 科技观察

本文经AI新媒体量子位（公众号ID：QbitAI）授权转载，转载请联系出处。StyleGAN在各种图像处理和编辑任务上表现惊人。但是，要“做一种工作”，又要换系统重新“训练”，太麻烦了。最后有人仔细研究发现：实际上，StyleGAN只需要通过预训练和对latentspace的一个小操作，就可以直接上手各种“工作”，包括全景图生成、单图生成、特征插值、图像到图像的转换等。更何况它在这些“工作”上的表现丝毫不逊色于每一个单独的SOTA玩家。笔者趁机综合整理，写了一篇论文。相关讨论直接在reddit上获得了700+的热度：网友感叹：这总结真爽！AllYouNeed:Pre-training+一点空间操作方法很简单，我们一一来吧。前提：fi∈RB×C×H×W表示StyleGAN第i层的中间特征。1.直观逼真的图像的空间操作由于StyleGAN是全卷积的，我们可以调整fi的空间维度，使输出图像发生相应的空间变化。通过简单的空间操作（例如填充和调整大小），可以生成更直观和逼真的图像。例如下图，通过复制灌木丛和灌木丛来扩展背景。与原始调整大小导致纹理模糊等缺陷相比，特征空间中可以保持更逼真的纹理。2.特征插值拼接StyleGAN的中间层可以实现图像信息的混合，但是当要拼接的两张图像差异太大时，效果往往不好。但是特征插值是没有问题的。具体操作方法：在每个StyleGAN层中，使用不同的latentnoise分别生成fAi和fBi。然后使用下面的公式将它们平滑混合，然后传递到下一个卷积层进行相同的操作。其中α∈[0,1]B×C×H×W是mask，如果用于水平混合，mask会从左到右变大。与相应模型的定性和定量比较：特征插值方法能够无缝融合两幅图像，而铃木等人的结果。遭受重大文物。在用户研究中，与Suzuki等人相比，87.6%的人也更喜欢该方法。用户研究包括40人，每人需要在不同方法下比较25对图像。3.从单幅图像生成除了在不同图像之间插值特征外，我们还可以在单??幅图像中应用它。工作原理：在某些要素层中，选择相关块并将其与其他区域混合，进行空间复制。使用移位算子Shift()：这个和SinGAN一样，但是SinGAN涉及采样，这种方法只需要手动选择patch进行特征插值。与SinGAN的定性和定量比较：该方法生成的图像更加多样化和逼真；SinGAN未能以“有意义”的方式改变教堂结构，并产生不切实际的云彩和风景。在用户研究中，83.3%的人更喜欢这种方法生成的新图像。4.改进的GAN反演GAN反演的目的是在W+空间中定位一个风格代码（stylecode），通过它合成一个与给定目标图像相似的图像。Wulff等人的模型。认为，在简单的非线性变换下，W+空间可以用高斯分布建模。但是在属性迁移设置中，需要将源图和参考图对调，效果并不理想。最近的研究表明，与W+相比，使用σ在面部操作方面表现更好。但作者发现，不做任何变换的σ空间也可以建模为高斯分布。然后在这个空间而不是在GAN反演期间应用相同的高斯先验。性能比较：该方法在图像重建和可编辑性方面取得了显着改进。5.图像到图像的转换受益于σ空间上部的影响。作者建议freeze在image-to-imagetranslation的过程中生成一个σ的仿射变换层（affinetransformationlayer）。这种简单的改变可以更好地保留图像翻译语义（注意下图d中嘴巴的形状）。此外，作者发现：（1）可以在所有空间维度上使用常数α进行连续翻译；（2）局部图像平移，通过选择区域进行特征插值；(3)改进的GAN反演被用于对真实人脸进行人脸编辑和翻译。这样得到的效果也比较好。6.全景图生成作者通过“编织”两幅图像的混合（span）来生成全景图，如图：重复这个过程可以生成任意长度的全景图。并且该方法不限于同时混合两个图像，也不限于仅在水平方向上生成。一些例子：7.Attributetransfer为了让特征插值更好地用于任意人物姿态图像的属性传递，作者选择在源图像和参考图像之间进行姿态对齐，具体对齐前2048个W+空格样式码尺寸。然后可以应用特征插值将所选特征从源图像传输到目标图像。与现有方法相比：Collins等人的方法不能准确传递细节属性，Suzuki等人。当姿势不匹配时，生成的图像不够逼真。而且作者的方法既准确又真实。基于真实性和准确性的用户选择结果进一步验证了该方法的优越性。附言。此外，还可以进行任意区域的迁移，比如无缝混合两边眼睛明显不同的两半人脸：以上不需要特定的架构或训练范式，进行一些操作和微调在StyleGAN模型潜在空间中，可以与其他图像处理任务的特定方法进行比较，以达到同等或更好的性能。你感觉如何？还有什么需要补充的吗？论文地址：https://arxiv.org/abs/2111.01619项目地址：https://github.com/mchong6/SOAT

上一篇：浅谈AVL树和splay树的基本算法（三）

下一篇：您将100万条记录插入MySQL需要多长时间？

最后，有人对各种StyleGANs做了一个大总结相关文章