万能的GAN又攻下了一座山。近年来,GAN在图像合成领域取得了惊人的成果,例如DeepMind此前提出的BigGAN。最近,DeepMind提出了一种新的BigBiGAN,引起了社区的极大关注。本文提出的方法建立在SOTA模型BigGAN的基础上,通过对其表示学习和生成能力的广泛评估,证明了这些基于生成的模型在ImageNet数据集上的无监督表示学习和无条件图像生成中均取得了SOTA结果..机器学习界的许多研究人员认为这是一项极其有趣的工作。比如GAN之父IanGoodfellow在推特上表示,当他们写出最初的GAN论文时,他们的合作者也在做类似于BigGAN的表征学习研究。.时隔5年,终于看到这样的成绩。论文:LargeScaleAdversarialRepresentationLearning论文地址:https://arxiv.org/abs/1907.02544真的可以用GAN进行表征学习吗?其实在GAN的早期,它也可以用于无监督表示学习。然而,编码器等自监督学习取得了更好的效果。在这篇论文中,研究人员表明,提高图像生成的质量可以极大地提高表示学习的性能。并且相较于自编码器等专注于“底层细节”的模型,GAN可以通过判别器捕捉语义差异,从而显着提升效果。研究人员采用的BigBiGAN方法建立在SOTA模型BigGAN之上,通过增加编码器和修改判别器将方法扩展到表征学习领域。作者展示了一系列图像重建效果,这些图像并不是像素完美的重建,因为模型甚至没有一个目标函数来强制像素之间的距离更近。但是使用BigBiGAN进行表示学习来重建图像有一个优势:它可以直观地理解编码器学习到的特征。例如,当输入图像中有“狗”或“人”等物体时,重建图像通常包含此类物体,并且它们的姿态状态相似。下面我们可以看看BigBiGAN的重构效果,体验无监督表示学习的优势。真实图像(第一行)和为真实图像重建的图像(第二行)。随机选择生成的图像。为什么GAN可以做表示学习GAN框架中的生成器是从随机采样的潜在变量(也称为“噪声”)到生成数据的前馈映射。学习信号由鉴别器提供,鉴别器被训练用于区分真实和生成的数据样本。许多GAN扩展正在增强编码器的能力,一些研究发现BiGAN的行为类似于自动编码器,可最大限度地降低图像重建的成本。然而,重建误差是由参数化鉴别器决定的,而不是简单的像素级度量,这比自动编码器要好得多。由于鉴别器通常是一个强大的神经网络,我们可以预期它引入的误差度量是“语义”差异。这对于表示学习很重要,因为我们希望隐藏表示学习最具语义信息的特征,而不仅仅是低级细节。鉴于此,使用GAN进行表征学习是非常合理的。尽管对于下游任务,基于BiGAN或ALI框架学习的编码器是在ImageNet上进行视觉表示学习的有效方法。然而,这些模型使用了DCGAN风格的生成器,无法在此数据集上生成高质量的图像,因此编码器可以建模的语义非常有限。在本文中,研究人员使用BigGAN作为生成器重新审视了这种方法。BigGAN似乎能够捕获ImageNet图像中的许多模式和结构。研究人员表明,在ImageNet上,BigBiGAN(BiGAN+BigGAN生成器)的无监督表示学习能力可以达到当前最先进的性能。BigBiGAN模型BiGAN或ALI方法是GAN的变体,用于学习推理模型的编码器或作为图像的表示。虽然BigBiGAN的核心与BiGAN的方法相同,但研究人员采用了来自SOTABigGAN的生成器和鉴别器架构。此外,研究人员发现改进后的判别器结构可以在不影响生成效果的情况下获得更好的表示学习结果(见图1)。也就是说,除了在BiGAN或ALI中提出的联合鉴别器(将数据和潜在鉴别器连接起来)之外,研究人员在学习目标中提出了一个额外的一元项。虽然BiGAN或ALI的相关工作证明原始BiGAN目标已经强制学习的联合分布匹配全局最优值,但这些一元术语通过明确强制执行此属性直观地指导“正确方向”的优化。“执行。例如,在图像生成任务中,一元损失项与原始GAN目标相匹配,并提供学习信号,仅指导生成器匹配底层的输入无关图像分布。图1:BigBiGAN框架的结构。实验研究人员在未标记的ImageNet数据集上训练BigBiGAN,冻结学习到的表示,然后在输出上训练线性分类器,使用所有训练集标签进行完全监督。他们还使用InceptionScore(IS)和FréchetInceptionDistance(FID)作为标准指标来衡量图像生成性能。1.训练和数据集研究人员使用了与BigGAN相同的优化器——Adam,batchsize为2048,学习率等超参数也与BigGAN相同。在训练时,研究人员对输入图像使用了ResNet风格的数据增强,但裁剪大小为128或256,而不是224。在表1的实验中,研究人员从官方ImageNet训练集中随机抽取10K张图像作为验证集,并报告准确性。该数据集称为“train_val”。表1中的实验运行了500K步,并根据线性分类器在train_val数据集上的准确性提前停止。在表2中,研究人员将BigBiGAN的训练数量增加到1M步,并报告了验证集在50K图像上的准确性。使用学习率{10^?4,3·10^?4,10^?3,3·10^?3,10^?2}的Adam优化器对分类器进行100K步训练。2.实验结果研究人员将模型的最佳性能与最近的无监督学习结果进行了比较。表1表1:BigBiGAN变体的性能结果,对于生成的图像具有InceptionScore(IS)和FréchetInceptionDistance(FID),由编码器特征训练的监督逻辑回归分类器ImageNettop-1准确率百分比(CIs),并基于执行分割计算在从训练集中随机抽取的10K张图像上,研究人员将其称为“train-val”分割。表2表2:官方验证集上的BigBiGAN模型与最近使用监督逻辑回归分类器的类似方法的比较。表3表3:用于无监督(无条件)生成的BigBiGAN与[24]中使用无监督BigGAN获得的先前结果的比较。【本文为栏目组织《机器之心》微信公众号《机器之心(id:almosthuman2014)》原文翻译】点击此处查看作者更多好文
