Anewparadigmfortextandimageediting,asinglemodelformulti-text-guidedimageediting

时间：2023-03-18 01:02:32 科技观察

论文简介使用文本进行图像编辑的研究非常火热，最近的很多研究都是基于去噪扩散模型来进行提高了效果，但很少有学者继续关注GAN的相关研究。本文在经典的StyleGAN和CLIP的基础上，提出了语义调制模块，使得不同文本只需要一个模型就可以进行文本-图像编辑。本文首先使用现有的编码器将待编辑图像转换为StyleGAN的W^+语义空间中的隐码w，然后通过提出的语义调制模块自适应地调制隐码。语义调制模块包括语义对齐和语义注入模块。首先通过attention机制对齐文本代码和GAN隐藏代码之间的语义，然后将文本信息注入对齐的隐藏代码中，保证隐藏代码有文本信息，实现用文本编辑图片的能力.与经典的StyleCLIP模型不同，我们的模型不需要为每个文本训练单独的模型，一个模型可以响应多个文本以有效地编辑图像，因此我们的模型成为FFCLIP-FreeFormText-DrivenImageManipulation。同时，我们的模型在经典的教堂、人脸和汽车数据集上取得了很好的效果。论文地址：https://arxiv.org/pdf/2210.07883.pdfGithub地址：https://github.com/KumapowerLIU/FFCLIP执行图像编辑操作的空间[1,2]。将一个句子（例如，“Blue”）或短语（例如，“Managed10”）作为输入，这些方法通过调制StyleGAN潜在空间中的潜在编码来相应地编辑所描述的图像属性。准确的文本图像编辑依赖于StyleGAN的视觉语义空间和CLIP的文本语义空间之间准确的潜在映射。例如，当文本提示是“surprise”时，我们首先在视觉语义空间中识别出其相关的语义子空间（即“expression”，因为surprise属于expression的属性）。找到文本对应的语义子空间后，文本会告诉我们隐藏代码的变化方向，从隐藏代码从当前表达式变为惊喜表达式。TediGAN[1]和StyleCLIP[2]等开创性研究根据经验预先定义了哪个潜在视觉子空间对应于目标文本提示嵌入（即TediGAN中的特定属性选择和StyleCLIP中的分组映射）。这种经验识别限制了给定文本提示，他们必须训练相应的编辑模型。不同的文本提示需要不同的模型来调制StyleGAN的潜在视觉子空间中的潜在代码。虽然StyleCLIP中的全局定位方法不采用这样的过程，但参数调整和编辑方向是手动预定义的。为此，我们有理由探索如何通过显式文本自动寻找隐含的视觉语义子空间，从而使单个模型可以处理多个文本。在本文中，我们提出了FFCLIP-FreeFormCLIP，它可以自动为不同的文本找到相应的视觉子空间。FFCLIP由几个语义调制模块组成，这些模块将潜在编码w^+和StyleGAN潜在空间W^+中的文本编码e作为输入。语义调制模块由语义对齐模块和语义注入模块组成。语义对齐模块将文本编码e作为查询，将潜在编码w作为键和值。然后我们分别计算位置和通道维度上的交叉注意力，得到两个注意力图。然后我们使用线性变换将当前视觉空间转换为文本对应的子空间，其中线性变换参数（即平移和缩放参数）是基于这两个注意力图计算的。通过这种对齐方式，我们可以自动为每个文本找到对应的视觉子空间。最后，语义注入模块[3]通过之后的另一个线性变换修改子空间中的潜在代码。从FFCLIP的角度来看，[1,2]中的子空间经验选择是我们在语义对齐模块中具有的一种特殊形式的线性变换。他们的组选择操作类似于我们的尺度参数的二进制值，以指示w的每个位置维度的用法。另一方面，我们观察到W+空间的语义仍然纠缠在一起，经验设计无法找到StyleGAN的潜在空间与CLIP的文本语义空间之间的精确映射。相反，我们的语义对齐模块中的缩放参数自适应地修改潜在代码w以映射不同的文本提示嵌入。然后通过我们的翻译参数进一步细化对齐。我们在基准数据集上评估我们的方法，并将FFCLIP与最先进的方法进行比较。结果表明，FFCLIP可以在传达用户意图的同时生成更合理的内容。FFCLIP的图1显示了我们的整体框架。FFCLIP首先通过预训练的GAN逆向编码器和文本编码器获得图像和文本的潜在编码。图像的潜在编码是前面提到的StyleGAN视觉语义空间W^+中的w，而文本编码是e_t。与StyleCLIP一样，我们使用e4eGAN反转编码器[4]和CLIP中的文本编码器分别获得相应的潜在编码。然后我们将e_t和w作为调制模块的输入，输出w的偏移量Δw，最后将Δw与原来的w相加，放入预训练好的StyleGAN中得到对应的结果。图1：整体框架图下面图2是我们的语义调制模块。在SemanticAlignment模块（SemanticAlignment）中，我们可以清楚地看到我们将Δw设置为Key和Value，将e_t设置为Query来计算两个attentionmaps，大小分别为18×1和512×512。然后我们使用18×1注意力图作为线性变换中的缩放因子S。计算attentionmap的过程如下：同时，我们将512×512的attentionmap乘以Value，然后进行Pooling操作，得到显式变换。平移系数T。我们计算attentionmap的过程是这样的：有了平移系数和缩放系数后，我们可以通过线性变换找到当前文本e_t对应的视觉子空间。计算步骤如下：x_i为第i个语义调制模块输出结果。由于Δw的大小为18×512，所以分别在Δw的位置和通道两个维度上计算18×1和512×512的attentionmaps。这个操作类似于DualAttention[5]。图2：语义调制模块我们可以通过以上操作得到文本对应的视觉子空间，然后我们使用类似AdaIN的方法将文本信息注入到这个空间中，得到最终的结果。我们将此操作称为语义注入。整个模块的实现步骤如下：最后在我们的FFCLIP中一共堆叠了4个语义调制模块，最终得到最终的偏移量Δw。实验结果图3：视觉对比图如图3所示，我们与StyleCLIP[1]、TediGAN[2]和HairCLIP[3]进行了视觉对比：可以看出FFCLIP能够更好的反映文本的语义，并产生更逼真的编辑图像。同时，对应的数值对比结果见下表。我们的方法可以在客观和主观价值上取得最好的结果。表1：数值比较同时，我们的方法也表现出非常好的鲁棒性。FFCLIP在训练中没有看到单词组合而是使用单个单词进行训练，但是在测试中它可以很好地用于短语。对图像进行语义编辑，视觉效果如图4所示。图4：短语编辑更多实验结果和消融实验请看原文。总结在本文中，我们提出了FFCLIP，这是一种跨不同文本进行高效图像编辑的新方法，但只需要一个模型。本文的动机是现有方法根据现有经验匹配当前文本和GAN的语义子空间，因此编辑模型只能处理一个文本提示。我们通过对齐和注入语义调制改进了潜在映射。它有助于一个编辑模型处理多个文本提示。对多个数据集的实验表明，我们的FFCLIP有效地产生了语义相关且视觉逼真的结果。

上一篇：云计算如何成为可持续发展的推动者

下一篇：网信办通报 33 款 App 违法违规收集使用个人信息情况：多款必备应用被点名

Anewparadigmfortextandimageediting,asinglemodelformulti-text-guidedimageediting相关文章