主导扩散模型的U-Net将被取代，谢赛宁等人介绍了Transformer，提出了DiT

时间：2023-03-12 11:12:29 科技观察

近年来，在Transformer的推动下，机器学习正在复兴。在过去的五年中，自然语言处理、计算机视觉和其他领域的神经架构主要由Transformer主导。然而，仍有许多图像级生成模型仍然对这种趋势免疫，例如过去一年在图像生成方面取得惊人成果的扩散模型，而且几乎所有这些模型都使用卷积U-Net作为主干.有点意外！过去几年，深度学习领域的大事件就是跨领域的Transformer一统天下。U-Net或卷积是否有什么特别之处使它们在扩散模型中表现如此出色？首次将U-Net骨干网络引入扩散模型的研究可以追溯到Ho等人。这种设计模式继承了自回归生成模型PixelCNN++，但有一些细微的变化。而PixelCNN++由卷积层组成，其中包含许多ResNet块。与标准的U-Net相比，PixelCNN++额外的空间self-attentionblock成为transformer中的基本组件。与其他研究不同，Dhariwal和Nichol等人。消除了U-Net的几种架构选择，例如使用自适应归一化层将条件信息和通道计数注入卷积层。在这篇论文中，来自加州大学伯克利分校的WilliamPeebles和来自纽约大学的谢赛宁撰写了《 Scalable Diffusion Models with Transformers 》，目的是揭开扩散模型中架构选择的重要性的神秘面纱，并为未来的生成模型研究提供经验基线。这项研究表明，U-Net归纳偏置对扩散模型的性能并不重要，可以很容易地用标准设计（例如变压器）代替。这一发现表明，扩散模型可以从架构统一趋势中受益，例如，扩散模型可以继承其他领域的最佳实践和训练方法，保留这些模型的有利特性，如可扩展性、稳健性和效率。标准化的架构也将为跨学科研究开辟新的可能性。论文网址：https://arxiv.org/pdf/2212.09748.pdf项目网址：https://github.com/facebookresearch/DiT论文主页：https://www.wpeebles.com/DiT本研究关注一类新的基于Transformer的扩散模型：DiffusionTransformers（简称DiTs）。DiTs遵循VisionTransformers(ViTs)的最佳实践，并进行了一些小而重要的调整。DiT已被证明比传统的卷积网络（如ResNet）更有效地扩展。具体来说，本文从网络复杂度和样本质量两个方面研究了Transformer的缩放行为。我们表明，通过在潜在扩散模型(LDM)框架下构建DiT设计空间并对其进行基准测试，U-Net主干可以成功地替换为转换器，其中扩散模型在VAE的潜在空间内进行训练。该论文进一步表明，DiT是扩散模型的可扩展架构：网络复杂性（由Gflops测量）和样本质量（由FID测量）之间存在很强的相关性。通过简单地扩展DiT并训练具有高容量主干(118.6Gflops)的LDM，在类条件256×256ImageNet生成基准上实现了2.27FID的最新结果。DiffusionTransformersDiTs是一种用于扩散模型的新架构，旨在尽可能忠实于标准转换器架构以保持其可扩展性。DiT保留了ViT的许多最佳实践，图3显示了完整的DiT架构。DiT的输入是空间表示z（对于256×256×3的图像，z的形状为32×32×4）。DiT的第一层是patchify，它通过将每个补丁线性嵌入到输入中，将空间输入转换为T个标记序列。在patchify之后，我们将标准的基于ViT频率的位置嵌入应用于所有输入标记。Tpatchify创建的令牌数量由补丁大小超参数p确定。如图4所示，将p减半会使T翻四倍，从而至少使变压器Gflops翻四倍。本文将p=2,4,8添加到DiT设计空间。DiT块设计：patchify之后，输入token由一系列transformer块处理。除了嘈杂的图像输入，扩散模型有时还会处理额外的条件信息，例如嘈杂的时间步长t、类标签c、自然语言等。本文探讨了四种以不同方式处理条件输入的transformer块变体。这些设计对标准ViT块设计进行了微小但重要的修改。所有模块的设计如图3所示。本文尝试了四种因模型深度和宽度而异的配置：DiT-S、DiT-B、DiT-L和DiT-XL。这些模型配置的参数范围从33M到675M，Gflops从0.4到119。实验研究人员训练了四个具有最高Gflops的DiT-XL/2模型，每个模型都使用不同的块设计-in-context(119.4Gflops)，cross-注意（137.6Gflops），自适应层规范（adaLN，118.6Gflops）或adaLN-zero（118.6Gflops）。然后在训练期间测量FID，图5显示了结果。比例模型大小和补丁大小。图2（左）概述了每个模型的Gflops及其在400K训练迭代时的FID。可以发现，增加模型大小和减小补丁大小会在扩散模型中产生相当大的改进。图6（顶部）显示了FID如何随着模型大小的增加而变化，而补丁大小保持不变。在四种设置中，训练的所有阶段都通过使Transformer更深更宽来明显提高FID。同样，图6（底部）显示了当补丁大小减小且模型大小保持不变时的FID。同样，我们观察到通过简单地扩大DiT处理的令牌数量并在整个训练过程中保持参数大致固定，FID得到了显着改善。图8显示了FID-50K与模型Gflops在400K训练步骤的比较：SOTA扩散模型256×256ImageNet。在扩展分析之后，研究人员继续以7M步训练最高Gflop模型DiT-XL/2。图1显示了模型示例并将其与类条件生成SOTA模型进行了比较，表2显示了结果。在没有分类器的情况下进行引导时，DiT-XL/2优于所有以前的扩散模型，将之前由LDM实现的最佳FID-50K3.60降低到2.27。如图2（右）所示，DiT-XL/2（118.6Gflops）比LDM-4（103.6Gflops）等潜在空间U-Net模型的计算效率高得多，也比ADM（1120Gflops）高得多Gflops)或像ADM-U(742Gflops)这样的像素空间U-Net模型效率更高。表3显示了与SOTA方法的比较。XL/2在此分辨率下再次优于所有以前的扩散模型，将ADM以前的最佳FID从3.85提高到3.04。有关研究的更多详细信息，请参阅原始论文。

上一篇：8.1Windows8.1的不足及解决方法

下一篇：Windows 11家庭版、专业版区别曝光：功能差异不小

主导扩散模型的U-Net将被取代，谢赛宁等人介绍了Transformer，提出了DiT相关文章