当前位置: 首页 > 科技观察

人脸合成效果堪比StyleGAN,是自编码器

时间:2023-03-13 04:15:29 科技观察

自编码器(AE)和生成对抗网络(GAN)是复杂分布上无监督学习最有前途的两种方法,也常被用来比较。人们通常认为autoencoder在图像生成上的应用范围比GAN要窄,那么autoencoder能不能拥有和GAN一样的生成能力呢?本研究中提出的新自动编码器ALAE可以给你答案。目前,该论文已被CVPR2020会议录用。论文地址:https://arxiv.org/pdf/2004.04467.pdfGitHub地址:https://github.com/podgorskiy/ALAEautoencoder是一种无监督的方法,同时学习encoder-generatorgraph结合“生成”和“代表”。关于自动编码器有两个未解决的问题:自动编码器是否像GAN一样具有生成性?自动编码器可以学习解缠结的表征吗?近日,美国西弗吉尼亚大学的研究人员提出了一种新型的自编码器——AdversarialLatentAutoencoder(ALAE),试图解决上述问题。ALAE是一种通用架构,可以利用GAN训练的最新改进。研究人员表明,ALAE具有与GAN相当的生成能力,并且可以学习解耦表示。利用ALAE的通用架构,本研究设计了两种自动编码器:一种基于MLP编码器,另一种基于StyleGAN生成器StyleALAE。研究人员验证了这两种架构的解耦能力,发现StyleALAE不仅可以生成与StyleGAN质量相当的1024x1024人脸图像,还可以在相同分辨率下基于真实图像生成人脸重建和操作。结果。据研究人员称,ALAE是第一个性能匹配或超过生成器架构的自动编码器。ALAE究竟是如何工作的?来看看展示:StyleALAE的风格混搭效果。有兴趣的读者可以自行运行demo,但需要支持CUDA的GPU、PyTorchv1.3.1及以上版本、cuda/cuDNN驱动。详情参见GitHub地址。新型通用自动编码器ALAE研究人员观察到,每种AE方法都使用相同的假设:潜在空间的概率分布应该与先验相关,并且自动编码器应该与之匹配。StyleGAN的相关论文证明中间势空间应该有更好的解耦能力。于是研究人员通过修改原有的GAN范式设计了一种新的AE架构:允许基于数据的潜在分布解决耦合问题(A),并使用对抗策略学习输出数据分布(B)以保留GAN的生成能力;为了实现(A)和(B),本研究建议将AE互易性置于潜在空间(C)中,以避免使用在数据空间中运行的简单的基于l_2范数的重建损失(对于图像空间,它们通常是下一个最佳的)选项)。如下图1所示,研究人员将生成器G和鉴别器D分解为两个网络:分别为F、G和E、D。图1:ALAE架构。此外,研究人员还展示了ALAE与其他自编码器的关联,详见下表:StyleALAE研究人员使用ALAE使用基于StyleGAN的生成器构建自编码器。具体架构如下图2所示:图2:StyleALAE架构。StyleALAE编码器中的实例归一化(IN)层用于提取多尺度样式信息,并通过可学习的多线性映射将它们组合成潜在代码w。实现ALAE的算法训练过程如下图所示:HoweffectiveisALAE?该研究评估了ALAE在多个数据集上的性能,实验代码和数据可以在GitHub地址找到。MNIST上的性能研究人员使用MNIST数据集来训练ALAE,并使用特征表示来执行分类、重建和解缠结能力分析的任务。表2:不同方法在MNIST分类任务上的表现。图3:MNIST重建结果。StyleALAE学习风格表示的能力研究人员评估了StyleALAE在FFHQ、LSUN和CelebA-HQ数据集上的性能。表3:FFHQ和LSUN数据集上不同方法的FID分数。表4:不同方法的感知路径长度(PPL),表示表示解耦的程度。图5:FFHQ重建结果。1024×1024用StyleALAE重建一张看不见的图像。图6:StyleALAE的FFHQ生成结果(1024×1024分辨率)。图9:StyleALAE的风格混合效果。“粗略样式”从源图像复制高级特征,如姿势、一般发型和脸型,从目标图像复制所有颜色(眼睛颜色、头发颜色和光照);“中间样式”从源图像复制相对较小的特征。从目标图像中复制发型、眼睛开/闭、脸型等小面部特征;“精美款式”的颜色和微观结构是从源图像复制的。图8:不同方法在CelebA-HQ数据集上的重建结果。第一行是真实图像;第二行:StyleALAE;第三排:平衡PIONEER;第四排:PIONEER。从图中可以看出,StyleALAE生成的结果更清晰,失真程度最低。