本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。“U-Net死了,Transformer成了扩散模型的新SOTA!”就在ChatGPT在AI圈子里风头正劲的时候,纽约大学谢赛宁关于图像生成模型的新论文发表了,同事们纷纷发出惊讶的声音。△MILA的ML博士生EthanCaballero创造性地将Transformer与扩散模型融合,在计算效率和生成效果上超越了经典的基于U-Net的模型ADM和LDM,打破了“U-Net规则扩散模型”的一般认知”网友们给这个新组合起的名字也是脑洞大开:AllweneedisU-Transformer希望大家不要错过Transffusion这个名字要知道,虽然Transformer这几年独霸风头,但U-Net在扩散模型领域——无论是“前任王者”DALL·E2,还是“新一代AI”StableDiffusion,都没有使用Transformer作为图像生成架构。△NVIDIAAI科学家JimFan的最新研究表明,U-Net并非不可能replacewithTransformer,《U-Netisnotirreplaceable》论文中提出的新架构叫做DiffusionTransformers(DiTs),该架构保留了ViT的很多特性,整体架构是s左边是hown(包括多个DiT模块),右边是DiT模块的具体组成:最右边有两个灰色框的模块是DiT架构的“变种”。.主要探讨不同的架构是否能更好地处理条件输入下的信息,包括cross-attention。最终结果表明LayerNormalization更好用,这里最终选择了自适应层归一化(AdaptiveLayerNormalization)方式。出于本文的目的,作者表示希望探讨不同架构选择在扩散模型中的重要性,同时也为未来生成模型的评估制定一个标准。先说结果——作者认为U-Net的归纳偏置对于扩散模型的性能提升并不是必须的。相反,它们可以“轻松地”被Transformer的标准架构取代。有网友发现DALL·E和DALL·E2似乎都使用了Transformer。这篇论文和他们有什么区别?事实上,DALL·E虽然是Transformer,但并不是扩散模型。本质上是基于VQVAE架构实现的;至于DALL·E2和StableDiffusion,虽然分别在CLIP和textencoder中使用了Transformer,但关键图像的生成仍然是U-Net。△经典的U-Net架构然而,DiT还不是文本生成图像模型——目前,它只能根据训练标签生成相应的新图像。虽然生成的图片仍然带有“ImageNet风格”,但NvidiaAI科学家JimFan认为,将其转化为想要的风格并添加文本生成功能并不难。如果将标签输入调整为其他向量,甚至文本嵌入,您可以快速将DiT转换为Vinsen图模型:Stable-DiT即将推出!那么DiTs在生成效果和运行速度上与其他图像生成模型相比如何呢?在ImageNet基准测试上获得SOTA为了验证DiTs的最终效果,研究人员沿着“模型大小”和“输入标签数量”两个轴对DiTs进行了缩放。具体来说,他们尝试了四种不同的模型深度和宽度配置:DiT-S、DiT-B、DiT-L和DiT-XL,然后分别训练了8和4的三种潜在块大小。和2款,共12款。从FID测量可以看出,就像在其他领域一样,增加模型大小和减少输入标签的数量可以大大提高DiT的性能。FID是计算真实图像和生成图像的特征向量之间距离的度量,越小越好。换句话说,较大的DiTs模型相对于较小的模型在计算上更高效,而较大的模型比较小的模型需要更少的训练计算来实现给定的FID。其中Gflop最高的模型是DiT-XL/2,它使用了最大的XL配置,patchsize为2。当训练时间足够长的时候,DiT-XL/2是里面最好的模型。因此在下一步中,研究人员将重点放在了DiT-XL/2上。他们在ImageNet上训练了两个版本的DiT-XL/2,分辨率分别为256x256和512x512,步长分别为7M和3M。当不使用分类器指导时,DiT-XL/2优于之前的扩散模型数据并达到SOTA性能:在256x256分辨率下,DiT-XL/2超过LDM之前达到的最佳FID-50K从3.60到2.27。与基线相比,DiTs模型本身的计算效率也很高:DiT-XL/2的计算效率为119Gflops,而LDM-4为103Gflops,ADM-U为742Gflops。同样,在512x512下,DiT-XL/2也将ADM-U实现的最佳FID从3.85降至3.04。不过此时ADM-U的计算效率为2813Gflops,而XL/2只有525Gflops。研究作者这篇论文的作者是加州大学伯克利分校的WilliamPeebles和纽约大学的谢赛宁。WilliamPeebles,目前正在攻读四年级博士学位。加州大学伯克利分校学生,毕业于麻省理工学院。他的研究方向是深度学习和人工智能,重点是深度生成模型。之前在Meta、Adobe、Nvidia实习过,这篇论文是在Meta实习期间完成的。谢赛宁是纽约大学计算机科学系的助理教授。他之前是MetaFAIR的研究员。本科就读于上海交通大学ACM班,毕业于加州大学圣地亚哥分校,获博士学位。谢赛宁在攻读博士时曾在FAIR实习。期间与何玉明合作完成了ResNeXt,这是本文的第一个工作。之前也参与过何毓明的论文MAE。当然,对于Transformer这次的表现,也有研究人员表达了“U-Net的不满”。例如,三星AI实验室的科学家AlexiaJolicoeur-Martineau表示:U-Net仍然充满活力,我相信它只需要稍微调整一下,就有人能比Transformer做得更好。看来,一场新的“竞争风暴”即将在图像生成领域掀起。论文地址:https://arxiv.org/abs/2212.09748v1
