当前位置: 首页 > 科技观察

CV圈对决:谷歌提出ViTGAN,利用视觉Transformer训练GAN

时间:2023-03-16 21:33:03 科技观察

卷积神经网络(convoluitonalneuralnetworks,CNN)凭借其强大的卷积和池化(pooling)能力,在计算机视觉领域占据主导地位。最近兴起的Transformer架构,已经开始在图像和视频识别任务上与CNN“断头”。特别是VisualTransformer(ViT)。Dosovitskiy等。已经表明图像被解释为一系列类似于自然语言中单词的标记。在ImageNet基准测试中,以更少的FLOP实现了相当的分类精度。尽管ViT及其变体仍处于起步阶段,但鉴于ViT在图像识别方面具有竞争力并且需要较少的视觉特定归纳偏置,ViT是否可以扩展到图像生成?来自谷歌和加州大学圣地亚哥分校的研究团队调查了这个问题并发表了论文:ViTGAN:TrainingGenerativeAdversarialNetworks(GANs)withVisualTransformers。△https://arxiv.org/pdf/2107.04589.pdf论文的研究问题是:ViT是否可以在不使用卷积或池化的情况下完成图像生成任务,即ViT是否可以用具有竞争力质量的GAN训练出来基于CNN的GAN。研究团队将ViT架构集成到mid-GAN中,发现现有的GAN正则化方法与自注意力机制交互不佳,导致训练过程中严重不稳定。因此,团队引入了一种新的正则化技术,用ViT训练GAN,并获得了以下研究成果:1.ViTGAN模型远优于基于Transformer的GAN模型,性能优于基于Transformer的GAN模型不使用卷积或池化的GAN模型。可与基于CNN的GAN(例如Style-GAN2)相媲美。2.ViTGAN模型是最早在GAN中使用视觉Transformer的模型之一。3.ViTGAN模型表明,该Transformer在标准图像生成基准(包括CIFAR、CelebA和LSUN卧室数据集)上可与最先进的卷积架构相媲美。实验方法上图说明了ViTGAN的架构,包括一个ViT鉴别器和一个基于ViT的生成器。实验发现,直接使用ViT作为判别器会使训练变得不稳定。作者向生成器和鉴别器引入了新技术,以稳定训练动态并促进收敛。(1)ViT鉴别器的正则化;(2)生成器的新架构。由于现有的GAN正则化方法与self-attention的交互性较差,在训练过程中会造成严重的不稳定。为了解决这个问题,作者引入了新颖的“正则化”技术来使用ViT训练GAN数据集,并实现与最先进的基于CNN的StyleGAN2相当的性能。Lipschitz连续性在GAN鉴别器中很重要,首先它作为WGAN中近似Wasserstein距离的条件而受到关注,后来它被证明在其他GAN设置中超越了Wasserstein损失。特别是,表明Lipschitz鉴别器保证最优鉴别器函数的存在以及唯一的纳什均衡的存在。然而,最近的一项工作表明,标准点积自注意力(即等式5)层的Lipschitz常数可以是无界的,这使得ViTs中的Lipschitz连续性被破坏。如式7所示,实验使用欧氏距离代替点积相似度,query和key的投影矩阵的权重也相同。实验发现,在初始化时将每一层的归一化权重矩阵乘以谱范数就足以解决这个问题。实验使用以下更新规则来实现谱范数,其中σ计算权重矩阵的标准谱范数。设计发电机设计基于ViT架构的发电机并不简单。一个挑战是将ViT从预测一组类标签转换为在空间区域内生成像素。在介绍实验模型之前,作者讨论了两个可信的基线模型,如图2(A)和2(B)所示。这两个模型交换ViT的输入和输出以从嵌入生成像素,特别是从潜在向量w,即w=MLP(z)(在图2中称为映射网络)和高斯噪声向量z由MLPExportin.这两个基线生成器在输入序列上有所不同。图2(A)一个positionembedding序列作为输入的positionembedding序列,每个positionembedding加上一个中间特征向量w。实验结果△ViTGAN与基线架构在图像合成上的主要结果对比。TransGAN是现存唯一一个完全建立在Transformer架构上的无卷积GAN,其最好的变体是TransGAN-XL。Vanilla-ViT是一种基于ViT的GAN,它使用图2(A)中所示的生成器和一个vanillaViT鉴别器。为了公平比较,该基线使用R1惩罚和bCR+DiffAug。此外,还加入了BigGAN和StyleGAN2作为最先进的基于CNN的GAN模型进行对比。从上表可以看出,ViTGAN模型比其他基于Transformer的GAN模型要好很多。这是在Transformer架构上改进稳定GAN训练的结果。它实现了与最先进的基于CNN的模型相当的性能。这一结果提供了经验证据,证明Transformer架构在生成对抗训练中可与卷积网络相媲美。如上所示,ViTGAN模型(最后一列)显着提高了最佳Transformer基线(中间一列)的图像保真度。即使与StyleGAN2相比,ViTGAN生成的图像质量和多样性也不相上下。摘要本文介绍了ViTGAN,在GAN中利用视觉转换器(ViTs),并提出了确保其训练稳定性和提高收敛性的基本技术。在标准基准(CIFAR-10、CelebA和LSUN卧室)上进行的实验表明,所提出的模型实现的性能可与最先进的基于CNN的GAN相媲美。至于局限性,ViTGAN是一种建立在通用ViT架构上的新型通用GAN模型。它仍然无法击败最好的基于CNN的GAN模型。这可以通过将高级培训技术纳入ViTGAN框架来改进。希望ViTGAN可以促进该领域的未来研究,并可以扩展到其他图像和视频合成任务。