很多内容制作项目需要将简单的草图转换成逼真的图片,这就涉及到图像到图像的转换(image-to-imagetranslation),它使用深度生成模型来学习给定输入的自然图像的条件分布。图像到图像转换的基本概念是使用预训练的神经网络来捕获自然图片流形。图像翻译类似于遍历流形并定位可行的输入语义点。该系统使用许多图像对合成网络进行预训练,以从其潜在空间的任何样本中提供可靠的输出。使用预训练的合成网络,下游训练将用户输入调整为模型的潜在表示。多年来,我们已经看到许多特定于任务的方法达到了SOTA水平,但当前的解决方案难以创建用于实际使用的高保真图像。在最近的一篇论文中,来自香港科技大学和微软亚洲研究院的研究人员认为,对于图像到图像的转换,预训练是你所需要的。以前的方法需要专门的架构设计并从头开始训练单个转换模型,因此很难生成高质量的复杂场景,尤其是在成对训练数据不足的情况下。因此,我们将每个图像到图像的转换问题视为下游任务,并引入一个简单的通用框架,该框架采用预训练的扩散模型进行各种图像到图像的转换。他们将提出的预训练图像到图像转换模型称为PITI(基于预训练的图像到图像转换)。此外,研究人员还提出在扩散模型训练中使用对抗训练来增强纹理合成,结合归一化引导采样来提高生成质量。最后,在ADE20K、COCO-Stuff和DIODE等具有挑战性的基准上对各种任务进行广泛的实证比较表明,PITI合成图像显示出前所未有的真实感和保真度。论文链接:https://arxiv.org/pdf/2205.12952.pdf项目主页:https://tengfei-wang.github.io/PITI/index.htmlGAN已死,扩散模型永存。作者没有使用特定领域的最佳性能,而是使用扩散模型来合成各种各样的图像,而不是使用最先进的GAN。其次,它应该从两种类型的潜在代码生成图像:一种描述视觉语义,另一种针对图像波动进行调整。语义、低维潜在对于下游任务至关重要。否则,不可能将模态输入转换为复杂的潜在空间。出于这个原因,他们使用GLIDE作为预训练生成先验,这是一种可以生成不同图像的数据驱动模型。由于GLIDE使用潜在文本,它允许语义潜在空间。扩散和基于分数的方法展示了跨基准的生成质量。在类条件ImageNet上,这些模型在视觉质量和采样多样性方面与基于GAN的方法相当。最近,使用大规模文本-图像配对训练的扩散模型显示出惊人的能力。一个训练有素的扩散模型可以为合成提供一个通用的生成先验。框架作者可以使用借口任务对大量数据进行预训练,并开发一个非常有意义的潜在空间来预测图像统计数据。对于下游任务,他们有条件地微调语义空间以映射特定于任务的环境。机器根据预先训练的信息创建可信的视觉效果。作者建议用语义输入预训练扩散模型。他们使用文本条件、图像训练的GLIDE模型。Transformer网络为扩散模型编码文本输入和输出标记。按照计划,文本嵌入空间是有意义的。上图是作者的作品。与从头开始的技术相比,预训练模型提高了图像质量和多样性。由于COCO数据集的类别和组合众多,基本方法无法提供具有吸引力的架构的美观结果。他们的方法可以为困难场景创建具有精确语义的丰富细节。图片展示了他们方法的多功能性。实验和效果表1表明,所提出的方法始终优于其他模型。与最先进的OASIS相比,PITI在FID中实现了掩膜到图像合成的显着改进。此外,该方法还在草图到图像和几何到图像的合成任务上表现出良好的性能。图3显示了这项研究在不同任务上的可视化结果。实验表明,与从头开始训练的方法相比,预训练模型显着提高了生成图像的质量和多样性。本研究中使用的方法可以产生生动的细节和正确的语义,即使是具有挑战性的生成任务。该研究还在AmazonMechanicalTurk上对COCO-Stuff上的蒙版到图像合成进行了用户研究,获得了20名参与者的3000票。一次给参与者两张图片,并要求他们投票选出更逼真的一张。如表2所示,所提出的方法大大优于从头开始的模型和其他基线。条件图像合成创建条件兼容的高质量图片。计算机视觉和图形领域使用它来创建和处理信息。大规模预训练改进了图像分类、对象识别和语义分割。未知的是大规模预训练是否对一般的生成任务有益。能源使用和碳排放是图像预训练的关键问题。预训练是能量密集型的,但只需要一次。条件微调允许下游任务使用相同的预训练模型。预训练允许使用较少的训练数据训练生成模型,当由于隐私问题或昂贵的注释成本而导致数据受限时,这可以改善图像合成。
