扩散模型的图像生成霸主地位终于要被GAN夺回了?就在大家过年的时候,英伟达的一群科学家悄悄升级了StyleGAN系列,打造出了PLUS版的StyleGAN-T,一下子火爆了网络。无论是在星云爆炸中生成柯基犬:还是以虚幻引擎风格渲染的森林:生成只需将近0.1秒!在同等算力下,扩散模型中的StableDiffusion生成一张图像需要3秒,而Imagen甚至需要将近10秒。很多网友的第一反应是:GAN,好久没有听到的名字了。很快GoogleBrain研究科学家和DreamFusion的第一作者BenPoole前来观看,并将StyleGAN-T与扩散模型进行了比较:在低质量图像(64×64)生成方面,StyleGAN-T优于扩散模型模型。更好的。但他也表示,在256×256的图像生成方面,扩散模型仍然占主导地位。那么,新一代StyleGAN的质量如何,又在哪些领域具有竞争力呢?StyleGAN-T长什么样?与迭代生成样本的扩散模型和自回归模型相比,GAN最大的优势在于速度。因此,StyleGAN-T这次也着眼于大规模文本图像合成,即如何在短时间内从文本中生成大量图像。StyleGAN-T基于StyleGAN-XL的改进。StyleGAN-XL的参数量是StyleGAN3的三倍。基于ImageNet训练,可以生成1024×1024的高分辨率图像,借鉴了StyleGAN2和StyleGAN3的部分架构设计。其整体架构如下:具体到细节,作者重新设计了生成器、判别器和文本对齐权衡机制,使用FID定量评估样本质量,使用CLIP对齐文本。在生成器上,作者放弃了StyleGAN3可以实现平移等变(equivariance)的架构,而是采用了StyleGAN2的部分设计,包括输入空间噪声和跳层连接,以提高细节随机变化的多样性。在鉴别器上,作者还重新设计并使用自监督学习来训练ViT-S。随后,作者采用了一种特殊的截断方法来控制图像生成的效果,同时权衡生成内容的多样性。只需要控制参数ψ就可以提高生成图像的风格多样性,同时保证CLIP分数(用来评价图像生成效果)变化不大。随后,作者用64块NvidiaA100训练了4周,最终得到了这个版本的StyleGAN-T。那么它是如何运作的呢?超快生成低分辨率图像作者评估了几种最先进的GAN、扩散模型和自回归模型。在Microsoft的MSCOCO数据集上,StyleGAN-T在64×64分辨率下实现了最高的FID。(其中FID是计算真实图像与生成图像特征向量距离的评价值,数值越低,生成的效果越接近真实图像。)但在更高的256×256分辨率生成中,StyleGAN-T仍然没有和过扩散模型相比,生成效果比同样使用GAN的LAFITE要好很多:如果进一步使用生成时间和FID分别作为纵轴和横轴,并在同一张图上进行比较,可以更直观地进行比较。构建质量和速度。可以看出,StyleGAN-T可以10FPS的速度生成256×256分辨率的图像,FID值接近于LDM、GLIDE等扩散模型:在文本生成图像功能方面,作者也处理了文本功能和风格控制。该模型进行了测试。添加或更改特定形容词后,生成的图像确实符合描述:即使是快速生成的图像,也可以快速控制风格,例如“梵高风格的绘画”或“动画”等:当然,偶尔也有失败案例,最典型的就是生成有字母要求的图片时,无法显示正常的字母:作者正在努力整理代码,表示近期会开源。作者简介作者来自图宾根大学和NVIDIA。第一位是图宾根大学博士生AxelSauer,此前他在卡尔斯鲁厄理工学院(KIT)获得硕士学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。第二部作品是NVIDIA杰出的研究科学家TeroKarras,他对NVIDIARTX技术做出了重要贡献,也是StyleGAN系列的主要作者。主要研究方向为计算机图形学与实时渲染。然而,在这一波GAN掀起的“复兴”浪潮下,也有一种声音“StyleGAN的时代即将结束”。有网友感叹:在此之前,最新的StyleGAN生成的图像总能给我们带来惊喜,而现在却只给我们“快”的印象。你认为GAN还能撼动扩散模型的霸主地位吗?论文地址:https://arxiv.org/abs/2301.09515项目地址:https://github.com/autonomousvision/stylegan-t
