当前位置: 首页 > 科技观察

GPT-3和StableDiffusion一起辅助模型理解甲方的修图需求

时间:2023-03-12 00:28:52 科技观察

扩散模型流行后,很多人关注的是如何使用更有效的提示来生成他们想要的图像。在一些AI绘图模型的不断尝试中,人们甚至总结出了让AI画得好的关键词经验:也就是说,如果掌握了正确的AI说话技巧,绘图质量提升的效果会非常明显(参见:《??「羊驼打篮球」怎么画?有人花了 13 美元逼 DALL·E 2 亮出真本事??》)。此外,一些研究人员正在朝另一个方向努力:如何只用几句话就把一幅画变成我们想要的样子。前段时间,我们报道了谷歌研究院等机构的一项研究。只要说出你想要一张图片是什么样子的,它基本可以满足你的要求,生成照片级别的图片,比如让一只小狗坐下:这里模型的输入描述是“adogsittingdowndog”,但按照人们日常的交流习惯,最自然的描述应该是“让这狗坐下”。有研究者认为这是一个应该优化的问题,模型应该更符合人类的语言习惯。最近,加州大学伯克利分校的一个研究团队提出了一种基于人类指令编辑图像的新方法InstructPix2Pix:给定一张输入图像和告诉模型要做什么的文本描述,模型可以按照描述指令编辑图像。论文地址:https://arxiv.org/pdf/2211.09800.pdf比如想把画中的向日葵换成玫瑰,只需要直接对模型说“把向日葵换成玫瑰”即可:为了获得训练数据,该研究结合了两个大型预训练模型——语言模型(GPT-3)和文本到图像生成模型(StableDiffusion)——产生了一个大型的图像编辑示例成对训练数据集。研究人员在这个大型数据集上训练了一个新模型InstructPix2Pix,并在推理时推广到真实图像和用户编写的指令。InstructPix2Pix是一种条件扩散模型,给定输入图像和编辑图像的文本指令,生成编辑后的图像。该模型直接在前向传播中进行图像编辑,无需任何额外的示例图像、输入/输出图像的完整描述或每个示例的微调,因此模型可以在几秒钟内快速编辑图像。尽管InstructPix2Pix完全基于合成示例(即GPT-3生成的文本描述和StableDiffusion生成的图像)??进行训练,但该模型实现了对任意真实图像和人类书写文本的零样本泛化。该模型支持直观的图像编辑,包括替换对象、更改图像样式等。方法概述研究人员将基于指令的图像编辑视为一个监督学习问题:首先,他们生成了一个包含文本编辑指令和编辑前后图像的配对训练数据集(图)。在该集合上训练了一个图像编辑扩散模型(图2)。2d).尽管在生成的图像和编辑指令上进行训练,模型仍然能够使用人类编写的任意指令编辑真实图像。下面的图2是该方法的概述。生成多模态训练数据集在数据集生成中阶段,研究人员结合了大型语言模型(GPT-3)和文本到图像模型(StableDiffusion)的能力,生成了一个前后对应图像的多模态训练数据集。这个过程包括以下步骤:微调GPT-3以生成文本编辑集合:给出描述图像的提示,生成描述要进行的更改的文本指令和提示d描述改变后的图像(图2a);使用文本到图像模型将两个文本提示(即编辑前和编辑后)转换为一对对应的图像(图2b)。InstructPix2Pix研究人员使用生成的训练数据来训练基于稳定扩散模型的条件扩散模型,该模型根据书面说明编辑图像。扩散模型通过一系列去噪自动编码器学习生成数据样本,这些自动编码器估计指向高密度数据方向的数据分布部分。潜在扩散通过在带有编码器和解码器的预训练变分自动编码器的潜在空间中运行,提高了扩散模型的效率和质量。对于图像x,扩散过程将噪声添加到编码的潜在z_t,从而产生噪声水平z_t,其中噪声水平随着时间步长t∈T而增加。我们学习了一个网络,该网络预测添加到噪声潜在z_t的给定图像调节C_I和文本指令调节C_T。我们最小化以下潜在扩散目标:之前,已经表明(Wang等人)对于图像翻译任务,尤其是当成对训练数据有限时,微调大型图像扩散模型优于从头开始训练。因此,在新的研究中,作者使用预训练的稳定扩散检查点来初始化模型的权重,利用其强大的文本到图像生成能力。为了支持图像调节,研究人员向第一个卷积层添加了一个额外的输入通道,连接z_t和.扩散模型的所有可用权重都从预训练的检查点初始化,而在新添加的输入通道上运行的权重被初始化为零。作者在这里重用了最初用于字幕的相同文本调节机制,而不是将文本编辑指令c_T作为输入。实验结果在下图中,作者展示了他们新模型的图像编辑结果。这些结果适用于一组不同的真实照片和艺术品。新模型成功执行了许多具有挑战性的编辑,包括替换对象、更改季节和天气、替换背景、修改材料属性、切换艺术媒介等等。研究人员将新方法与一些最新技术(如SDEdit、Text2Live等)进行了比较。新模型遵循编辑图像的说明,而其他方法(包括基线方法)需要图像或编辑图层的描述。因此,在比较时,作者为后者提供了“编辑过”的文本注释,而不是编辑描述。作者还使用衡量图像一致性和编辑质量的两个指标,对新方法与SDEdit进行了定量比较。最后,作者展示了生成的训练数据的大小和质量如何影响模型性能的消融结果。