口口相传就可以改图。这是甲乙双方的共同心愿,但其中的辛酸通常只有乙方知道。今天,人工智能挑战了这个难题。在10月17日上传到arXiv的一篇论文中,来自谷歌研究院、以色列理工学院和以色列魏茨曼科学研究所的研究人员介绍了一种基于扩散模型的真实图像编辑方法——Imagic,只能使用Text来实现真人照片的PS,比如请人竖起大拇指,请两只鹦鹉亲吻:“请帮P点个赞”。扩散型:没问题,包在我身上。从论文中的图片可以看出,修改后的图片还是很自然的,除需要修改的内容外,其他信息没有明显损坏。类似的研究还有谷歌研究院和以色列特拉维夫大学之前完成的Prompt-to-Prompt(参考Imagic论文[16]):项目链接(含论文、代码):https://prompt-to-prompt。github.io/因此,有人感慨地说,“这个领域的变化太快了,有点夸张。”以后甲方真动嘴,想怎么改就怎么改。Imagic论文概述论文链接:https://arxiv.org/pdf/2210.09276.pdf长期以来,对真实照片应用大量语义编辑一直是图像处理中的一项有趣任务。近年来,由于基于深度学习的系统取得了长足的进步,这项任务引起了研究界的极大兴趣。使用简单的自然语言文本提示来描述我们要编辑的内容(例如让狗坐下)与人类交流的方式高度一致。因此,研究人员开发了许多基于文本的图像编辑方法,并且这些方法也行之有效。但是,目前主流的方法都或多或少存在一些问题,例如:1.仅限于一组特定的编辑,例如在图像上绘画,添加对象或转移样式[6,28];领域特定图像或合成图像[16,36];3.除了输入图像外,它们还需要辅助输入,例如指示所需编辑位置的图像遮罩、同一主题的多张图像或对原始图像的描述。文本[6,13,40,44]。本文提出一种语义图像编辑方法“Imagic”来缓解上述问题。给定要编辑的输入图像和描述目标编辑的单个文本提示,该方法可以对真实的高分辨率图像进行复杂的非刚性编辑。生成的图像输出与目标文本很好地对齐,同时保留了原始图像的整体背景、结构和构图。如图1所示,Imagic可以让两只鹦鹉接吻或让一个人竖起大拇指。它首次提供基于文本的语义编辑,将如此复杂的操作应用于单个真实的高分辨率图像,包括编辑多个对象。除了这些复杂的更改之外,Imagic还支持各种编辑,包括样式更改、颜色更改和对象添加。为了实现这一壮举,研究人员利用了最近成功的文本到图像扩散模型。扩散模型是强大的生成模型,可以实现高质量的图像合成。当以自然语言文本提示为条件时,它能够生成与请求的文本一致的图像。在这项工作中,研究人员使用它们来编辑真实图像,而不是合成新图像。如图3所示,Imagic只需三个步骤即可完成上述任务:首先优化一个文本嵌入,使其生成与输入图像相似的图像。然后,对预训练的生成扩散模型进行微调,以更好地重建以优化嵌入为条件的输入图像。最后,在目标文本嵌入和优化嵌入之间执行线性插值,得到结合了输入图像和目标文本的表示。然后将该表示传递给具有微调模型的生成扩散过程,输出最终编辑的图像。为了展示Imagic的强大功能,研究人员进行了多项实验,将该方法应用于不同领域的大量图像,并且在所有实验中都产生了令人印象深刻的结果。Imagic输出的高质量图像与输入图像高度相似,并且与所需的目标文本一致。这些结果证明了Imagic的多功能性、多功能性和质量。研究人员还进行了一项消融研究,强调了所提出方法的每个组成部分的影响。与最近的一系列方法相比,Imagic表现出明显更好的编辑质量和对原始图像的保真度,尤其是在执行高度复杂的非刚性编辑任务时。方法细节给定输入图像x和目标文本,本文旨在以满足给定文本的方式编辑图像,同时保留图像x的大量细节。为了实现这一目标,本文利用扩散模型的文本嵌入层来执行语义操作,其方式有点类似于基于GAN的方法。研究人员从寻找有意义的表征开始,然后经历生成与输入图像相似的图像的生成过程。然后优化生成模型以更好地重建输入图像,最后一步是处理潜在表示以获得编辑结果。如上图3所示,我们的方法包括三个阶段:(1)优化文本嵌入以在目标文本嵌入附近找到与给定图像最匹配的文本嵌入;(2)微调扩散模型以更好地匹配给定图像。(3)在优化的嵌入和目标文本嵌入之间进行线性插值,找到一个同时实现图像保真度和目标文本对齐的点。更具体的细节如下:TextEmbeddingOptimization首先,目标文本被输入到一个文本编码器,它输出相应的文本嵌入,其中T是给定目标文本的token数量,d是token嵌入维度。然后,研究人员冻结生成的扩散模型f_θ的参数,并使用去噪扩散目标优化目标文本嵌入e_tgt,其中x是输入图像,是x的噪声版本,θ是预训练的扩散模型重量。这使得文本嵌入尽可能匹配输入图像。此过程运行的步骤相对较少,使原始目标文本嵌入接近优化嵌入e_opt。模型微调这里需要注意的是,这里获得的优化嵌入e_opt在通过生成扩散过程时不一定与输入图像x完全相似,因为它们只经过少量优化步骤(见顶部图5中的左侧面板)。因此,在第二阶段,作者通过使用等式(2)中提供的相同损失函数优化模型参数θ来缩小这一差距,同时冻结优化后的嵌入。文本嵌入插值Imagic的第三阶段是在e_tgt和e_opt之间进行简单的线性插值。对于给定的超参数,作者随后使用微调模型为条件应用基础生成扩散过程。这会产生一个低分辨率的编辑图像,然后使用微调的辅助模型将其与目标文本进行超级解析。这个生成过程输出最终的高分辨率编辑图像。实验结果为了测试效果,研究人员将该方法应用于大量不同领域的真实图像,使用简单的文本提示来描述不同的编辑类别,例如:风格、外观、颜色、姿势和构图。他们从Unsplash和Pixabay收集了高分辨率的免费图像,对其进行优化,使用5个随机种子生成每个编辑,并选择最佳结果。Imagic展示了令人印象深刻的结果,能够对任何通用输入图像和文本应用各种类型的编辑,如图1和图7所示。图2是在同一图像上使用不同文本提示的实验,显示了Imagic的多功能性。由于研究人员利用的基础生成扩散模型是概率性的,因此该方法可以为单个图像文本对生成可变结果。图4显示了使用不同随机种子进行编辑的几个选项(对每个种子的η进行了轻微调整)。这种随机性允许用户在这些不同的选项中进行选择,因为自然语言的文本提示通常是模糊和不精确的。该研究将Imagic与当前领先的通用方法进行了比较,这些方法对单个输入的真实世界图像进行操作并根据文本提示对其进行编辑。图6显示了Text2LIVE[7]和SDEdit[32]等不同方法的编辑结果。可以看出,我们的方法在正确执行所需编辑的同时保持了对输入图像的高保真度。当给出复杂的非刚性编辑任务时,例如“让狗坐下”,我们的方法明显优于以前的技术。Imagic是第一个将这种复杂的基于文本的编辑应用于单个真实世界图像的演示。
