当前位置: 首页 > 科技观察

只需3个样本和一句话,AI就能定制出照片级别的图像,Google正在玩一个很新的扩散模型

时间:2023-03-17 18:36:56 科技观察

最近,text-to-image模型成为了一个热门的研究方向,无论是大片的自然景观还是新奇的场景图像都有可能使用简单的文本描述自动生成.其中,渲染奇幻的想象场景是一项具有挑战性的任务,需要在新场景中合成特定主题(物体、动物等)的实例,使它们自然无缝地融入场景。几个大型文本转图像模型已经实现了基于自然语言编写的文本提示的高质量和多样化的图像合成。这些模型的主要优点是它们从大量图像-文本描述对中学习到强大的语义先验,例如将“狗”一词与可能以不同姿势出现在图像中的各种狗的实例相关联。虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考对象以及合成同一对象但在不同场景中具有不同实例的新图像的能力。可见,现有模型的输出域表达能力有限。为了解决这个问题,来自谷歌和波士顿大学的研究人员提出了一种“个性化”的文本到图像扩散模型DreamBooth,它可以适应用户特定的图像生成需求。论文地址:https://arxiv.org/pdf/2208.12242.pdf项目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion本研究的目标是扩展模型的语言-视觉词典这样它将新词汇与用户想要生成的特定主题相关联。一旦将新词典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时将它们置于不同的场景中,保留关键的识别特征,如下图1所示。具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符合成它们。为此,本研究提出了一种使用稀有标记标识符表示给定主题的方法,并微调了一个分两步运行的预训练、基于扩散的文本到图像框架;生成低分辨率图像,然后应用超分辨率(SR)扩散模型。首先,该研究使用包含唯一标识符(具有主题类名称,例如“A[V]狗”)和文本提示的输入图像微调低分辨率文本到图像模型。为了防止模型将类名过度拟合到特定实例和语义漂移,本研究提出了一种自生的、类特定的先验保存损失,它利用了模型中嵌入的类的先验语义,鼓励模型生成同一类的不同实例在给定的主题下。在第二步中,该研究使用输入图像的低分辨率和高分辨率版本微调超分辨率组件。这允许模型对场景主题中的小但重要的细节保持高保真度。让我们看看该研究提出的具体方法。方法介绍给定3-5个没有文字描述的捕获图像,本文旨在生成具有高细节保真度和文本提示引导变化的新图像。该研究对输入图像没有任何限制,主题图像可以有不同的上下文。方法如图3所示,输出图像可以修改原图,比如主体的位置,改变主体的颜色、形状等属性,还可以修改主体的姿势、表情、材质等语义修改。更具体地说,我们的方法将一个主题(例如,一只特定的狗)的一些图像(通常是3-5张图像)和相应的类名(例如,狗类别)作为输入,并返回一个微调/个性A标准化的文本到图像模型,为引用的主题编码唯一标识符。然后,在推理时,可以将唯一标识符植入不同的句子中,以在不同的上下文中合成主题。本研究的首要任务是将主题实例植入模型的输出域,并使用唯一标识符绑定主题。该研究提出了一种设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。为了解决图像过拟合和语言漂移问题,该研究还提出了一种损失(Prior-PreservationLoss),鼓励扩散模型不断生成与被试同一类的不同实例,从而减少模型过拟合和语言漂移漂移。等问题。为了保留图像细节,研究发现应该对模型的超分辨率(SR)组件进行微调,这是在预训练的Imagen模型的基础上完成的。具体过程如图4所示。给定3-5张相同主题的图像,然后分两步对文本到图像扩散模型进行微调:Raretokenidentifiersrepresentthetopics。在这项研究中,主题的所有输入图像都被标记为“一个[标识符][类名词]”,其中[标识符]是链接到主题的唯一标识符,[类名词]是主题的粗略类描述符(如猫、狗、手表等)。该研究特别在句子中使用类描述符,以便将类先验与主题相关联。效果展示以下是Dreambooth的稳定扩散实现(参考项目链接)。定性结果:训练图片来自“TextualInversion”库:训练完成后,在“photoofaskscontainer”的提示下,模型生成的容器照片如下:添加一个位置“photoofasks”askscontaineronthebeach”提示,集装箱出现在沙滩上;绿色容器颜色太单调,如果要加点红色,输入提示“photoofaredskscontainer”即可:输入提示“adogontopofskscontainer”即可可以让小狗坐在盒子里:下面是论文中提出的一些结果。生成不同画家风格的狗的艺术图像:这项研究还合成了输入图像中没有出现的各种表情,展示了模型的外推能力:更多细节请参考原论文。