CMU联手Adob??e:GAN模型迎来预训练时代,只需要1%的训练样本Leftbehind。通常,GAN的训练以无监督的方式从头开始。费时费力不说,通过大数据大规模预训练学到的“知识”也用不上。不是损失吗?而且,图像生成本身需要能够捕捉和模拟现实世界视觉现象中复杂的统计数据,否则生成的图片不符合物理世界的规律,一眼就能识别为“假”。预训练模型提供知识,GAN模型提供生成能力。两者的结合或许是一件美好的事情!问题是,哪些预训练模型以及它们如何结合起来提高GAN模型的生成能力?近日,来自CMU和Adobe的研究人员在CVPR2022上发表了一篇文章,将预训练模型与GAN模型的训练通过“选择”相结合。论文链接:https://arxiv.org/abs/2112.09130项目链接:https://github.com/nupurkmr9/vision-aided-gan视频链接:https://www.youtube.com/watch?v=oHdyJNdQ9E4GAN模型的训练过程由判别器和生成器组成,其中判别器用于学习相关统计量以区分真实样本和生成样本,而生成器的目标是使生成的图像尽可能类似于真实分布。理想情况下,鉴别器应该能够测量生成图像和真实图像之间的分布差距。然而,当数据量非常有限时,直接使用大规模预训练模型作为判别器,很容易导致生成器被“无情碾压”,进而“过拟合”。从FFHQ1k数据集上的实验来看,即使使用最新的可微分数据增强方法,判别器仍然会过拟合,在训练集上表现良好,但在验证集上表现不佳。此外,鉴别器可能会专注于人类无法区分但机器很明显的伪装。为了平衡鉴别器和生成器的能力,研究人员提出聚合一组不同的预训练模型的表示作为鉴别器。这种方法有两个好处:1.在预训练特征上训练浅层分类器是使深度网络适应小规模数据集同时减少过度拟合的常用方法。也就是说,只要固定预训练模型的参数,然后在顶层加入一个轻量级的分类网络,就可以提供一个稳定的训练过程。比如上面实验中的Ours曲线,我们可以看到验证集的准确率远高于StyleGAN2-ADA。2.最近的一些研究也证明,深度网络可以捕获有意义的视觉概念,从低级视觉线索(边缘和纹理)到高级概念(对象和对象部分)。基于这些特征构建的判别器可能更符合人类的感知。并且在组合多个预训练模型后,可以促进生成器匹配不同且互补的特征空间中的真实分布。为了选择最好的预训练网络,研究人员首先收集了多个sota模型,形成了一个“模型库”,包括用于分类的VGG-16、用于检测和分割的Swin-T等,然后是一种自动模型搜索策略基于特征空间中真假图像的线性分割提出,并使用标签平滑和可微增强技术进一步稳定模型训练并减少过拟合。具体来说,真实训练样本和生成图像的结合被分成训练集和验证集。对于每个预训练模型,训练一个逻辑线性鉴别器来分类样本是来自真实的还是生成的,并且在验证分割上使用“负二元交叉熵损失”来测量分布间隙,误差最小的模型是回。较低的验证误差与较高的线性检测精度相关,表明这些特征对于区分真实样本和生成样本很有用,使用这些特征可以为生成器提供更有用的反馈。我们使用来自FFHQ和LSUNCAT数据集的1000个训练样本凭经验验证GAN训练。结果表明,使用预训练模型训练的GAN具有更高的线性检测精度,并且通常可以实现更好的FID指标。为了整合来自多个现成模型的反馈,本文还探索了两种模型选择和集成策略:1)K固定模型选择策略,即在训练开始时选择K个最佳现成模型,训练直到收敛;2)K-固定模型选择策略。一种渐进式模型选择策略,在固定次数的迭代后迭代地选择和添加性能最佳和未使用的模型。从实验结果可以发现,与K-fixed策略相比,progressive方法的计算复杂度更低,也有助于选择预训练模型捕捉数据分布的差异。例如,渐进式策略选择的前两个模型通常是一对自监督和监督模型。文章中的实验主要是渐进式的。最终的训练算法首先训练一个具有标准对抗损失的GAN。给定基线生成器,可以使用线性探测搜索最佳预训练模型,并在训练中引入损失目标函数。在K-progressive策略中,在训练与可用的真实训练样本数量成比例的固定迭代次数后,将一个新的视觉辅助鉴别器添加到具有前一阶段最佳训练集FID的快照中。在训练过程中,通过水平翻转进行数据扩充,并使用可微分扩充技术和单边标签平滑作为正则化项。还可以观察到,仅使用现成的模型作为判别器会导致发散,而原始判别器和预训练模型的组合可以改善发散。最后的实验展示了当FFHQ、LSUNCAT和LSUNCHURCH数据集的训练样本从1k到10k变化时的结果。在所有设置中,FID都实现了显着改进,证明了该方法在有限数据场景中的有效性。为了定性分析该方法与StyleGAN2-ADA的区别,根据两种方法生成的样本质量,本文提出的新方法可以提高最差样本的质量,特别是对于FFHQ和LSUNCAT,当我们逐渐增加使用判别器的时候,可以看到对于预训练模型的特征进行线性检测的准确率是逐渐下降的,这意味着生成器更强了。总体而言,仅用10,000个训练样本,该方法在LSUNCAT上的FID与在160万张图像上训练的StyleGAN2的性能相当。在完整数据集上,该方法在LSUN的猫、教堂和马类别上将FID提高了1.5到2倍。作者RichardZhang获得博士学位。他拥有加州大学伯克利分校的学士学位和康奈尔大学的本科和硕士学位。主要研究兴趣包括计算机视觉、机器学习、深度学习、图形和图像处理,通常通过与学术研究人员的实习或大学合作进行。作者朱俊彦是卡内基梅隆大学计算机学院机器人学院助理教授。在加入CMU之前,他是Adob??eResearch的研究科学家。毕业于清华大学,获学士学位,获博士学位。来自加州大学伯克利分校,然后是麻省理工学院CSAIL的博士后研究员。
