当前位置: 首页 > 科技观察

多模态图像合成与编辑大行其道,马克斯普朗克研究所、南洋理工等发表详细评述

时间:2023-03-17 00:27:35 科技观察

OpenAI发布的DALLE-2和谷歌发布的Imagen实现了惊人的文本转图像生成effects,引起了广泛关注,衍生出许多有趣的应用。文本到图像的生成是多模态图像合成和编辑领域的典型任务。近日,马克斯普朗克研究所、南洋理工学院等机构的研究人员对多模态图像合成与编辑领域的研究现状和未来发展进行了详细的调查和分析。论文地址:https://arxiv.org/pdf/2112.13592.pdf项目地址:https://github.com/fnzhan/MISE在第一章中,这篇综述描述了多模态图像合成和编辑任务的意义和整体发展,以及论文的贡献和总体结构。在第二章中,根据导图合成编辑的数据模式,本文介绍了比较常用的视觉导图(如语义图、关键点图、边缘图)、文本导图、语音导图、场景图(场景图)指导和相应的模态数据处理方法和统一的表示框架。在第三部分,根据图像合成和编辑的模型框架,论文对目前的各种方法进行了分类,包括基于GAN的方法、自回归方法、扩散模型方法和神经辐射场(NeRF)方法。由于基于GAN的方法一般使用条件GAN和无条件GAN反演,本文进一步将这一类分为模态内条件(如语义图、边图)、跨模态条件(如文本和语音)和GAN反转(均匀模态)并进行了详细描述。与基于GAN的方法相比,自回归模型方法可以更自然地处理多模态数据,并利用当前流行的Transformer模型。自回归方法一般先学习一个向量量化编码器将图片离散表示为一个token序列,然后对token的分布进行自回归建模。由于文本和语音等数据可以表示为标记并用作自回归建模的条件,因此可以将各种多模态图像合成和编辑任务统一到一个框架中。最近,流行的扩散模型也被广泛用于多模态合成和编辑任务。例如,令人惊叹的DALLE-2和Imagen就是基于扩散模型。与GAN相比,扩散生成模型具有静态训练目标和易于扩展等优点。本文基于条件扩散模型和预训练扩散模型对现有方法进行了分类和详细分析。上述方法主要针对二维图像的多模态合成和编辑。近年来,随着神经辐射场(NeRF)的快速发展,3D感知的多模态合成和编辑越来越受到关注。由于需要考虑多视图一致性,因此3D感知多模态合成和编辑是一项更具挑战性的任务。本文对单场景优化NeRF、生成NeRF和NeRF反演三种方法的现有工作进行了分类和总结。随后,综述对上述四种模型方法进行了比较和讨论。总的来说,当前最先进的模型更倾向于自回归和扩散模型,而不是GAN。NeRF在多模态合成和编辑任务中的应用为该领域的研究打开了一个新窗口。在第四部分,这篇综述汇集了多模态合成和编辑领域的流行数据集和相应的模态标注,并重点介绍了每种模态的典型任务(语义图像合成、文本到图像合成、语音引导图像编辑)对当前方法进行了定量比较。在第五章中,本综述讨论和分析了该领域当前面临的挑战和未来方向,包括大规模多模态数据集、准确可靠的评估指标、高效的网络架构以及3D感知的发展方向。在第六章和第七章中,综述阐述了该领域的潜在社会影响,并分别总结了文章的内容和贡献。