当前位置: 首页 > 科技观察

随意修脸!Adobe提供新一代GAN神器:支持多达35个人脸属性变化

时间:2023-03-21 18:33:54 科技观察

图像合成中的一个重要问题是图像中的纠缠问题。例如,如果一个人脸上的胡须全部被自动去除,或者胡须被完美贴上,那么得到的画面或多或少会不一致,因为胡须和脸之间存在一定的纠缠。而且,不同对象的合并和删除难度也不同。举几个生活中的例子就很容易理解了。从牛肉面里挑出香菜,挑出牛肉,都很难;根本不可能从咖啡中挑出糖分。向上。有些事情天生就联系在一起。为了完美地创建和合成新图像,机器学习模型必须能够学习创建各种对象,并且最好能够分离出不同的特征和概念。如果模型可以分离年龄、性别、发色、肤色、情绪等,那么你就可以在一个框架内随意修改这些组件,更灵活地控制生成的图像,更精细地创建和编辑人脸和其他图像,可以完美避免图像的纠缠。在所有实体最大纠缠的情况下,图像实际上执行分类任务,例如模型识别LadyGaga的照片。在介质纠缠的情况下,模型可以进一步分解照片,发现她有金发、微笑的表情等,GAN模型可以根据这些信息进行修改,生成新的图像。在完全解开状态下,模型可以进一步识别特征,如年龄、微笑程度等。在过去的几年里,已经有很多创建交互式人脸编辑模型的尝试,用户可以通过滑块或其他传统的用户界面交互来改变图片的面部特征,并不断添加或改变面部特征。目标人脸的核心特征保持不变。然而,由于GAN潜在空间存在潜在特征和风格纠缠的现象,任意编辑面部特征还不成熟。比如眼镜特征,往往会和老年人的特征纠缠不清,也就是说,加眼镜也可能让脸“变老”,想要脸变老也可能给脸加个眼镜,就看级别高了。功能的应用程序分离程度。最难的部分是改变头发的颜色和发型,如果不重新计算发丝和面部布局,几乎不可能“剪掉”一个角色。一次训练,随意换脸近日,Adobe在WACV2022大会上发表的一篇新论文,提供了解决这些根本性问题的新方法。一种学习映射器,用于在StyleGAN生成的图像中进行身份保持多面部属性编辑。论文地址:https://openaccess.thecvf.com/content/WACV2022/papers/Khodadadeh_Latent_to_Latent_A_Learned_Mapper_for_Identity_Preserving_Editing_WACV_2022_paper.pdf论文的主要作者是Adob??e的应用科学家SiavashKhodadadeh,另外四位Adob??e的研究人员,以及计算机科学美国中佛罗里达大学系研究员。这篇论文很有趣,部分原因是Adob??e从事图像合成已有一段时间了,它非常适合Adob??e的产品,这一功能很可能在未来几年内被打包到Adob??eCreativeSuite项目中;但主要是因为为这个项目提出的架构采用了不同的方法,在应用更改的同时保持GAN人脸编辑器的视觉完整性。作者声称他们训练了一个神经网络来执行潜意识到潜意识的转换,找到与具有改变属性的图像相对应的潜在代码。由于该技术是一次性的,因此它不依赖于属性逐渐变化的线性或非线性轨迹。通过在整个生成管道中对网络进行端到端训练,系统可以适应现有生成器架构的潜在空间,并使人类身份特征等保护特性能够在训练损失中进行编码。一旦训练了潜在到潜在的网络,它就可以用于任意图像输入而无需微调。这一特性也意味着本文提出的架构可以一次性将模型部署到用户终端,但仍然需要本地资源来运行神经网络,但可以直接将新图像扔进模型中,并且可以随时更改将要。因为框架是解耦的,所以不需要进一步的图像特定训练。这项工作的主要成果之一是网络可以通过仅更改目标向量中的属性来“冻结”潜在空间中的身份特征。本质上,网络被嵌入到一个更通用的架构中,该架构协调所有处理元素,这些元素通过具有冻结权重的预训练组件,而不会对转换产生不必要的横向影响。由于训练过程依赖于可以从种子图像(GAN反转)或现有初始潜代码生成的三元组,因此整个训练过程是无监督的,并且此类系统中惯用的一系列标签和管理系统可以有效.处理。系统中使用现成的属性回归器。作者在文章中表示,网络能够独立控制的属性数量只受识别器能力的限制。如果你有一个属性的识别器,你可以把它添加到任何人脸上。在本文的实验中,研究人员直接训练了一个latent-to-latent网络,该网络可以调整35种不同的面部属性,比以前的任何方法都多。该系统还包含一个额外的保护措施,以防止不需要的“副作用”转换:在没有更改属性的请求的情况下,潜在到潜在网络会将潜在向量映射到自身,进一步提高目标身份的稳定性和持久性。在过去几年中,基于GAN和编码器/解码器的人脸编辑器反复出现的另一个问题是,所使用的转换方法往往会降低人脸相似度。为了解决这个问题,Adobe项目使用了一个名为FaceNet的嵌入式面部识别网络作为鉴别器,它可以将标准的面部识别甚至表情识别系统集成到生成网络中。该框架的另一个关键特征是能够在潜在空间中任意变换。通过提高GAN的空间感知能力,可以在潜在的过渡点范围内进行图像修改。然而,EQGAN等模型在面临不同材质和纹理的修改时需要重新训练模型。除了能够接受全新的用户图像,用户还可以在过渡期间手动“冻结”他们想要保留的元素。这样用户可以保证背景等无关因素不发生变化。属性回归网络由三个网络组成:FFHQ、CelebAMask-HQ,以及在StyleGAN-V2的Z空间采样40万个向量生成的局部GAN网络。过滤掉分布外(OOD)图像并使用Microsoft的FaceAPI提取属性,并将生成的图像集按90/10拆分,留下720,000个训练图像和72,000个测试图像进??行比较。实验网络初始配置可容纳35种潜在变换方式,但为了在类似框架InterFaceGAN、GANSpace和StyleFlow上进行类似测试,将变换数量简化为8种,分别是年龄、秃头、胡须、表情、性别、眼镜、俯仰和偏角(偏航)。实验结果符合预期,在其他竞争模型架构中,图像合成的结果显得更加纠结。例如,在一项测试中,InterFaceGAN和StyleFlow甚至在用户要求更改角色年龄时更改了受试者的性别。从最终的量化实验结果可以看出,除了在Yaw(头角)实验中,Latent-to-Latent的效果并不理想,其他7个属性的表现基本处于sota序列。然而,GANSpace对年龄和眼镜变化更有效。