近年来,在Transformer的推动下,机器学习正在复兴。在过去的五年中,自然语言处理、计算机视觉和其他领域的神经架构主要由Transformer主导。然而,仍有许多图像级生成模型仍然对这种趋势免疫,例如过去一年在图像生成方面取得惊人成果的扩散模型,而且几乎所有这些模型都使用卷积U-Net作为主干.有点意外!过去几年,深度学习领域的大事件就是跨领域的Transformer一统天下。U-Net或卷积是否有什么特别之处使它们在扩散模型中表现如此出色?首次将U-Net骨干网络引入扩散模型的研究可以追溯到Ho等人。这种设计模式继承了自回归生成模型PixelCNN++,但有一些细微的变化。而PixelCNN++由卷积层组成,其中包含许多ResNet块。与标准的U-Net相比,PixelCNN++额外的空间self-attentionblock成为transformer中的基本组件。与其他研究不同,Dhariwal和Nichol等人。消除了U-Net的几种架构选择,例如使用自适应归一化层将条件信息和通道计数注入卷积层。在这篇论文中,来自加州大学伯克利分校的WilliamPeebles和来自纽约大学的谢赛宁撰写了《 Scalable Diffusion Models with Transformers 》,目的是揭开扩散模型中架构选择的重要性的神秘面纱,并为未来的生成模型研究提供经验基线。这项研究表明,U-Net归纳偏置对扩散模型的性能并不重要,可以很容易地用标准设计(例如变压器)代替。这一发现表明,扩散模型可以从架构统一趋势中受益,例如,扩散模型可以继承其他领域的最佳实践和训练方法,保留这些模型的有利特性,如可扩展性、稳健性和效率。标准化的架构也将为跨学科研究开辟新的可能性。论文网址:https://arxiv.org/pdf/2212.09748.pdf项目网址:https://github.com/facebookresearch/DiT论文主页:https://www.wpeebles.com/DiT本研究关注一类新的基于Transformer的扩散模型:DiffusionTransformers(简称DiTs)。DiTs遵循VisionTransformers(ViTs)的最佳实践,并进行了一些小而重要的调整。DiT已被证明比传统的卷积网络(如ResNet)更有效地扩展。具体来说,本文从网络复杂度和样本质量两个方面研究了Transformer的缩放行为。我们表明,通过在潜在扩散模型(LDM)框架下构建DiT设计空间并对其进行基准测试,U-Net主干可以成功地替换为转换器,其中扩散模型在VAE的潜在空间内进行训练。该论文进一步表明,DiT是扩散模型的可扩展架构:网络复杂性(由Gflops测量)和样本质量(由FID测量)之间存在很强的相关性。通过简单地扩展DiT并训练具有高容量主干(118.6Gflops)的LDM,在类条件256×256ImageNet生成基准上实现了2.27FID的最新结果。DiffusionTransformersDiTs是一种用于扩散模型的新架构,旨在尽可能忠实于标准转换器架构以保持其可扩展性。DiT保留了ViT的许多最佳实践,图3显示了完整的DiT架构。DiT的输入是空间表示z(对于256×256×3的图像,z的形状为32×32×4)。DiT的第一层是patchify,它通过将每个补丁线性嵌入到输入中,将空间输入转换为T个标记序列。在patchify之后,我们将标准的基于ViT频率的位置嵌入应用于所有输入标记。Tpatchify创建的令牌数量由补丁大小超参数p确定。如图4所示,将p减半会使T翻四倍,从而至少使变压器Gflops翻四倍。本文将p=2,4,8添加到DiT设计空间。DiT块设计:patchify之后,输入token由一系列transformer块处理。除了嘈杂的图像输入,扩散模型有时还会处理额外的条件信息,例如嘈杂的时间步长t、类标签c、自然语言等。本文探讨了四种以不同方式处理条件输入的transformer块变体。这些设计对标准ViT块设计进行了微小但重要的修改。所有模块的设计如图3所示。本文尝试了四种因模型深度和宽度而异的配置:DiT-S、DiT-B、DiT-L和DiT-XL。这些模型配置的参数范围从33M到675M,Gflops从0.4到119。实验研究人员训练了四个具有最高Gflops的DiT-XL/2模型,每个模型都使用不同的块设计-in-context(119.4Gflops),cross-注意(137.6Gflops),自适应层规范(adaLN,118.6Gflops)或adaLN-zero(118.6Gflops)。然后在训练期间测量FID,图5显示了结果。比例模型大小和补丁大小。图2(左)概述了每个模型的Gflops及其在400K训练迭代时的FID。可以发现,增加模型大小和减小补丁大小会在扩散模型中产生相当大的改进。图6(顶部)显示了FID如何随着模型大小的增加而变化,而补丁大小保持不变。在四种设置中,训练的所有阶段都通过使Transformer更深更宽来明显提高FID。同样,图6(底部)显示了当补丁大小减小且模型大小保持不变时的FID。同样,我们观察到通过简单地扩大DiT处理的令牌数量并在整个训练过程中保持参数大致固定,FID得到了显着改善。图8显示了FID-50K与模型Gflops在400K训练步骤的比较:SOTA扩散模型256×256ImageNet。在扩展分析之后,研究人员继续以7M步训练最高Gflop模型DiT-XL/2。图1显示了模型示例并将其与类条件生成SOTA模型进行了比较,表2显示了结果。在没有分类器的情况下进行引导时,DiT-XL/2优于所有以前的扩散模型,将之前由LDM实现的最佳FID-50K3.60降低到2.27。如图2(右)所示,DiT-XL/2(118.6Gflops)比LDM-4(103.6Gflops)等潜在空间U-Net模型的计算效率高得多,也比ADM(1120Gflops)高得多Gflops)或像ADM-U(742Gflops)这样的像素空间U-Net模型效率更高。表3显示了与SOTA方法的比较。XL/2在此分辨率下再次优于所有以前的扩散模型,将ADM以前的最佳FID从3.85提高到3.04。有关研究的更多详细信息,请参阅原始论文。
