当前位置: 首页 > 科技观察

女妆麝香!超好玩的模型StyleCLIP开源,还可以捏脸换装

时间:2023-03-21 22:17:16 科技观察

马斯克对科研真是太敬业了!近日,以色列研究人员推出了全新的生成模型StyleCLIP。只需要输入文字提示就可以得到你想要的假图,比如“化妆”得到精致的马斯克,或者输入“短发”马斯克换了发型,输入“女装”岂不是更好“?马斯克再次以科研之名被网友剧透。只要输入你想要的发型或肤色的名字,你就会立刻得到一个对应发型的麝香!比如输入Pale,可以获得雪白的麝香;进入Tanned,即可获得限量版麝香日光浴。进入妆容、卷发、直发等解锁更多马斯克头像,但第三排的发型在马斯克头上看起来很不协调。这是来自以色列StyleCLIP研究人员的作品,它可以利用基于人工智能的生成对抗网络对照片进行超逼真的修改,并且只需要让用户输入对自己想要的东西的描述,而无需输入具体的图片.https://arxiv.org/pdf/2103.17249.pdf这个模型也产生了一些非常有趣的结果。比如FacebookCEO马克扎克伯格的脸可以随意修改,比如让他看起来秃头、戴眼镜,或者在下巴上留山羊胡子。这位“火星人”的脸上,似乎也有些人情味。目前代码已经开源,快来玩一玩,看看适合自己的发型吧!https://github.com/orpatashnik/StyleCLIPStyleCLIPStyleCLIP模型主要由StyleGAN和CLIP模型组成。StyleGAN可以在不同领域生成高度逼真的图像,最近的很多工作都集中在了解如何使用StyleGAN的潜在空间来处理生成的图像和真实图像。但是发现语义上可能有意义的操作通常需要仔细检查多个自由度,这需要大量的手动工作,或者需要为每种所需样式创建带注释的图像集合。既然是基于标注,能否利用多模态模型CLIP(ContrastiveLanguage-ImagePre-training)的能力,开发出不需要人工操作的基于文本的StyleGAN图像处理。比如输入cutecat,会放大眯眼猫的眼睛,获得cutekittens的所有特征,老虎可以变身狮子等。提出了三种方法来利用CLIP的语义表达能力:1.潜在优化技术使用标准的反向传播方法修改给定的潜在代码,使得生成的图像与给定目标文本之间的CLIP-空间内的距离为最小的。2.latentmapper训练网络将输入的隐藏代码转换为修改生成图像中文本描述属性的代码。该映射器使用相同的全局CLIP损失进行训练,从而最小化到目标文本的CLIP空间距离。对于一些剧烈的形状修改,研究人员发现训练这样一个潜在的映射器可以帮助提高识别结果。text-guidedmapper的架构,在输入“surprise”之后,源图像被转化为一个latentcodew。训练三个独立的映射函数以生成残差(蓝色),将其添加到w以生成目标代码,从中生成预训练样式(绿色)以生成图像(右),通过CLIP损失效果进行评估。映射器被训练来操纵文本提示t指示的图像的所需属性,同时保留输入图像的其他视觉属性。为了保留原始输入图像的视觉特性,还需要最小化潜在空间中操作步骤的L2范数。文本提示一次不限于单个属性,例如可以同时设置四种不同的头发属性组合,直/卷和短/长,每种组合都会产生所需的结果,这种控制水平是以前任何方法都达不到的。由于定制的动作步骤是在每个输入图像的潜在映射器上推断出来的,因此检查潜在空间中步骤的方向如何随不同的输入而变化也很有趣。3.全局方向(GlobalDirection)通过判断隐藏编码的哪些维度会引起图像空间的变化,找到GAN隐藏空间有意义的变化方向。尽管隐藏映射器允许快速推理,但研究人员发现,当需要细粒度操作时,有时会出现映射能力不足的情况。此外,对于给定的文本提示,不同操作步骤的方向往往相似。因此需要一种方法将文本提示映射到一个单一的全局StyleGAN风格空间,并且本文提出的方法已被证明比其他潜在空间更有效。在实验部分,与其他文本驱动的图像处理方法如TediGAN相比,输入强指定文本为“Trump”,弱引用“Mohawk”,以及更常见的文本“withoutwrinkle”。Trump比较复杂,包含了多个属性,比如金发、眯眼、张嘴、脸有点肿,还有Trump的特殊身份,但是globalhiddendirection可以捕捉到主要的视觉属性,虽然这些视觉特征并不具体。它属于特朗普,它无法感知特朗普的具体身份。对于没有褶皱的文本提示,GlobalDirection模型可以成功去除褶皱,同时保持大多数其他属性不受影响,而Mapper模型则无法做到这一点。可以得出结论,对于复杂和特定的属性(尤其是涉及身份的属性),Mapper能够产生更好的生成结果。但是对于更简单和/或更常见的属性,单个全局方向就足够了,同时提供更多的分离操作。并且可以看出,TediGAN在三个实验中产生的结果都不理想。但是StyleCLIP也有缺陷,比如依赖于预训练的StyleGAN生成器和CLIP模型来实现联合语言-视觉嵌入,所以图像不能被操作到一些预训练模型的域外点。类似地,映射到CLIP空间中未被图像填充的区域的文本提示不能期望产生所需的结果。并且视觉变化较大的操作很难实现。例如,虽然老虎变狮子很容易,但老虎变狼的成功率却很低。