generativetransformer,在高保真高分辨率图像的合成中迅速普及。但迄今为止最好的生成变换器模型仍然将图像视为一系列标记,并按光栅扫描顺序(即逐行)解码图像。然而,这种策略既不是最优的也不是有效的。近日,谷歌研究院的研究人员提出了一种使用双向transformer解码器的新型图像合成模型MaskGIT。在训练期间,MaskGIT通过关注各个方向的标记来学习预测随机掩码标记。在推理阶段,模型首先同时生成图像的所有标记,然后以上一代为条件迭代地细化图像。实验表明,MaskGIT在ImageNet数据集上明显优于SOTAtransformer模型,将自回归解码速度提高了64倍。论文地址:https://arxiv.org/abs/2202.04200此外,研究还表明,MaskGIT可以很容易地扩展到各种图像编辑任务,如修复、外推和图像处理。之前的一项相关研究模型VQVAE提出分两个阶段在潜在空间中生成图像。第一阶段称为标记化,它试图将图像压缩到离散的潜在空间中。该阶段主要由三部分组成:编码器E,负责学习将图像x∈tokenize为潜在嵌入E(x);最近邻查找的代码本,用于将嵌入量化为视觉标记;解码器G,根据视觉标记e的预测重建图像。第二阶段首先使用深度自回归模型预测视觉标记的潜在先验,然后使用第一阶段的解码器将标记序列映射到图像像素。这种两阶段范式非常有效,所以几个常用的方法都遵循这种范式,比如DALL-E、VQGAN。其中,VQGAN在第一阶段加入了对抗损失和感知损失,以提高图像保真度。上述使用MaskGIT的两阶段范式的方法仍然使用自回归模型,因此第二阶段的解码时间与令牌序列的长度成正比。而本研究的目标是设计一种新的利用并行解码和双向生成的图像合成范式,遵循上述两阶段方案并改进第二阶段。第一阶段使用与VQGAN模型相同的设置,并将潜在的改进留给未来工作的标记化步骤;对于第二阶段,研究人员提出通过掩蔽视觉标记建模(MaskedVisualTokenModeling,MVTM)来学习一个双向变换器。MVTM在训练中用于表示将图像输入到VQ编码器所获得的潜在标记,其中N是重建的token矩阵的长度,是对应的二进制掩码。在训练过程中,研究对tokens的子集进行采样,并用特殊的[MASK]token替换它们。如果m_i=1,则将tokeny_i替换为[MASK];如果m_i=0,y_i保留,采样过程由mask调度函数参数化,然后按照以下步骤进行:先采样一个从0到1的比例,然后在Y中统一选择一个token放置mask,其中N是长度。掩码调度显着影响图像生成的质量。迭代解码是在自回归解码中,根据之前生成的输出顺序生成令牌。这个过程是不可并行的,一个d图片的token长度通常比语言长很多,所以速度很慢。本研究提出了一种新的解码方法,其中所有令牌同时并行生成,这是基于MTVM的双向自注意力。理论上,该模型能够一次推断出所有的token并生成整个图像,但训练任务的不一致性给研究带来了挑战。为了在推理过程中生成图像,研究从空白画布开始,所有标记都被屏蔽,即。本研究提出的迭代解码方法,每次迭代的算法运算步骤如下:1.预测2.采样3.掩模调度4.掩模掩模设计研究人员发现,图像生成质量受掩模设计影响显着.该方法通过掩码调度函数对掩码过程进行建模,该函数负责计算给定的潜在标记在推理过程中,该函数使用表示解码进度的输入;在训练过程中,该研究在[0,1)中随机采样比率r以模拟各种解码场景。实验本研究通过实验评估MaskGIT在质量、效率和灵活性方面的图像生成。类条件图像合成这项研究评估了MaskGIT模型在ImageNet256X256和ImageNet512X512上的类条件图像合成任务的性能。主要结果如下表1所示。质量。在ImageNet256X256上,在不使用任何特殊采样策略的情况下,MaskGIT在FID和IS方面都明显优于VQGAN。速度。该研究通过评估每个模型生成样本所需的步数(前向传播)来评估模型速度。如表1所示,在所有基于非GAN的模型中,MaskGIT在两种分辨率下需要的步骤最少。为了进一步证实MaskGIT和自回归模型之间的速度差异,该研究对MaskGIT和VQGAN之间的解码过程进行了运行时比较。如下图4所示,MaskGIT将VQGAN的速度显着提高了30-64倍,随着图像分辨率(和输入令牌长度)的增加,加速变得更加明显。多样性。除了样本质量,该研究还使用分类准确度得分(CAS)和精确率/召回率作为评估样本多样性的两个指标。与BigGAN的样本相比,MaskGIT的样本更加多样化,有更多的光照、姿势、尺度和上下文,如下图5所示。图像编辑应用本研究展示了MaskGIT直接应用于三个图像编辑任务:条件图像编辑、图像修复和图像扩展(修复)。如果任务被视为对MaskGIT在其迭代解码中使用的初始二进制掩码M使用约束,则几乎所有这三个任务都可以轻松转换为MaskGIT可以处理的任务。研究表明,MaskGIT能够在所有三个应用程序上产生非常好的结果,而无需修改架构或任何特定于任务的培训。此外,MaskGIT在图像修复和扩展方面实现了与专业模型相当的性能。在类条件图像编辑任务上,本研究定义了一个新的类条件图像编辑任务,以展示MaskGIT的灵活性。该模型在给定类的边界框中重新生成特定内容,同时保留上下文,即框外的内容。由于违反了预测顺序,自回归方法不可行。然而,对于MaskGIT,如果边界框区域被认为是迭代解码算法的初始掩码的输入,这个问题就解决了。下面的图6给出了一些示例结果。表2比较了几种方法的定量结果。MaskGIT在FID和IS上都以显着优势击败DeepFill和HiFill,同时取得接近SOTA修复方法CoModGAN的分数。如下图7所示,MaskGIT还能够在给定相同输入和不同种子的情况下合成不同的结果。AblationExperiments为了验证新设计的实用性,该研究对ImageNet256×256的默认设置进行了消融实验。MaskGIT的一个关键设计是用于训练和迭代解码的掩码调度功能。实验结果如下表3和图8所示。值得注意的是,如图8所示,在相同的设置下,迭代次数不一定越多越好:随着迭代次数T的增加,整个过程中除对数函数外,其他都表现不佳。这两个函数都达到了一个“最佳点”,在该点模型的性能在再次恶化之前达到顶峰。
