当前位置: 首页 > 科技观察

人工智能利用生成对抗网络生成离散面部属性,如微笑、悲伤、愤怒、惊讶

时间:2023-03-17 15:03:31 科技观察

人工智能利用生成对抗网络生成微笑、悲伤、愤怒、惊喜等离散面部属性画质人像操控的飙升,不仅来自智能手机应用,摄影行业、电商推广、电影制作等领域也同样如此。人像设备也得到了广泛研究[34]、5、8、18、1、33]计算机视觉和计算机图形学界。以前的方法专门用于添加妆容[23、6]、执行风格转换[9、14、24、12]、年龄增长[42]和表达操作[1、39]等。然而,这些方法是为特定任务量身定制的,不能转移到执行连续和一般的多模态肖像操作。最近,生成对抗网络在合成和图像翻译[15,38,4,35,44,13]中都表现出了令人信服的效果,其中[44,40]提出了未配对图像翻译的循环一致性。在本文中,我们通过利用额外的面部标志信息将这一想法扩展到条件设置,该信息能够捕获复杂的表情变化。这种简单直接的修改带来的好处包括:首先,循环映射可以有效地防止多对一映射[44,45],也称为模式崩溃。在面部/姿势操作的情况下,循环一致性也会导致身份保持和双向操作,而以前的方法[1]假设中性平面启动或单向[26、29],因此在同一域中进行操作。其次,具有不同纹理或风格的面部图像被认为是不同的模态,目前的地标检测器不适合那些风格化的图像。通过我们的设计,我们将来自多个域的样本配对并在每对域之间进行转换,从而间接地对风格化肖像进行地标提取。一旦收集到相应的数据,我们的框架也可以扩展到化妆/卸妆、老化操作等。考虑到许多人脸操作任务缺乏真实数据,我们利用[14]的结果生成伪对象来学习同时表达和模态操作,但它可以被任何所需的目标域替换。人工智能利用生成对抗网络贡献生成微笑、悲伤、愤怒和惊讶等离散面部属性:然而,在实现高质量人像操作方面仍然存在两个主要挑战。我们建议学习单个生成器tt,如[7]中所述。但是StarGAN[7]处理离散操作并且无法处理具有不可移除伪影的高分辨率图像。为了合成逼真的质量(512x512)的图像,我们提出受[37、41]启发的多级平面监督,其中不同分辨率的合成图像在被馈送到多级鉴别器之前被传播和组合。其次,为了避免在不同域之间的转换过程中出现纹理不一致和伪影,我们将Gram矩阵[9]集成到我们的模型中作为纹理距离的度量,因为它是不同的并且可以使用反向传播执行端到端训练。图1显示了我们模型的结果。广泛的评估表明,无论是定量还是定性,我们的方法在执行高质量人像操作方面与最先进的生成模型相当或更好(见第4.2节)。我们的模型是双向的,这避免了从中平面或固定域开始的需要。此功能还确保稳定的培训、身份保护,并且可以轻松扩展到其他所需的域操作。在下一节中,我们将回顾相关工作并指出差异。有关PortraitGAN的详细信息,请参阅第3节。我们在第4节评估我们的方法,并在第5节总结论文。人工智能利用生成对抗网络图像翻译生成离散面部属性,例如微笑悲伤愤怒惊喜:我们的工作可分为图像翻译和生成对抗网络,目的是即学习映射tt:Induceadistributionindistinguishablefromthetargetdomain,throughadversarialtraining一对生成器tt和判别器。例如,伊索拉等人。[13]以图像为条件,作为在配对示例上训练的一般图像到图像的翻译。后来,Zhu等人[44]通过引入循环一致性损失来扩展[13],以避免匹配训练对的需要。此外,它还减少了GAN训练期间的多对一映射(也称为模式崩溃)。受此启发,我们将这种损失合并到我们的模型中,以跨不同领域保留身份。另一个启发我们设计的开创性工作是Star-GAN[7],其中目标人脸属性被编码为单热向量。在StarGAN中,每个属性都被视为一个不同的域,区分这些属性的辅助分类对于监督训练过程至关重要。与StarGAN不同,我们的目标是在无法使用离散标签枚举的像素空间中执行连续编辑。这隐含地暗示了一个平滑且连续的潜在空间,其中该空间中的每个点都编码了数据中有意义的变化轴。在本文中,我们将不同的风格形式视为域,并可互换使用这两个词。从这个意义上说,美化/去美化、衰老/年轻、有胡子/没胡子等应用也可以包含在我们的通用框架中。我们在第4节中将我们的方法与Cycle-GAN[44]和StarGAN[7]进行了比较,并在第3节中详细介绍了我们的设计。姿势图像生成:我们知道使用姿势作为的作品[36、20、31、29]调节人物图像生成的人物重新识别任务。例如[26]按通道连接单热姿势特征图以控制类似于[30]的姿势生成,其中鸟类关键点??和分割掩码用于处理鸟类位置和姿势。为了合成更合理的人体姿势,Siarohin等人[31]开发了可变形跳跃连接并计算了一组仿射变换来近似关节变形。这些作品与我们的作品有一些相似之处,因为面部标志和人体骨骼都可以被视为一种姿势表示形式。然而,所有这些努力都涉及原始域中的操作,并且不保留身份。此外,这些作品中生成的结果分辨率较低,而我们的模型可以成功生成具有逼真质量的512x512分辨率。人工智能生成离散的面部属性,如微笑、悲伤、愤怒、惊讶等。利用生成对抗网络总体框架:问题制定给定域1、2、3、...n不同的模态,我们的目标是学习一个单一的通用映射函数tt:Xi→Xj,?i,j∈{1,2,3,...n}(1)通过连续的形状编辑将A中的A从域A变换到域B(图1)。等式1还暗示tt在给定所需条件下是双向的。我们使用面部标志jR1×H×W来表示域j中的面部表情。面部表情表示为具有N=68个2D关键点的向量,其中每个点ui=(xi,yi)是j中的第i个像素位置。我们使用属性向量c=[c1,c2,c3,...cn]来表示目标域。形式上,我们的输入/输出是形式为(IA,LB,cB)/(IB,LA,cA)∈R(3+1+n)×H×W的元组。模型架构我们方法的整体流程很简单,如图2所示,主要由三个部分组成:(1)生成器tt(,c),它将域c1中的输入人脸渲染为给定的条件人脸。另一个域中的人c2标记。tt是双向的,在前向和反向循环中重复使用。(2)一组具有不同分辨率的鉴别器Di,用于区分生成的样本和真实样本。我们采用PatchGAN[44],而不是将I映射到表示“真实”或“假”的单个标量,而PatchGAN[44]使用完整的convnet输出矩阵,其中每个元素Mi,j表示重叠的补丁ij作为真实概率.如果我们追溯到原始图像,每个输出都有一个70x70的感受野。(3)考虑到不同域之间身份保持和纹理一致性的损失函数。在接下来的小节中,我们将分别详细介绍每个模块,然后将它们组合起来构建PortraitGAN。人工智能生成离散的面部属性,如微笑、悲伤、愤怒、惊讶等。使用生成对抗网络数据集进行训练和验证:RadboudFaces数据库[19]包含4,824张图像,共有67名参与者,每张图像执行8个规范的情绪表达:愤怒、厌恶、恐惧、快乐、悲伤、惊讶、蔑视和中性。iCV多情绪面部表情数据集[25]专为微情绪识别(5184x3456分辨率)而设计,其中包括31,250个表情,显示50种不同的情绪。测试:我们从Youtube收集了20个高分辨率视频(简称HRY数据集),人们提供语音或地址进行测试。对于上述数据集,我们使用dlib[17]进行面部特征提取,并使用神经风格迁移算法[14]生成跨多种模态的肖像。请注意,在测试期间,groundtruths仅用于评估目的。人工智能利用生成对抗网络生成离散的面部属性,例如微笑、悲伤、愤怒、惊喜等。在本文中,我们提出了PortraitGAN,通过结合额外的面部特征点和属性向量作为条件来推动循环一致性的极限。对于双向映射,我们只使用类似于[7]但具有不同训练方案的生成器。这使我们能够以顺序方式同时执行多模式操作。我们使用表达式插值和不同的样式模式来验证我们的方法。为了获得更好的图像质量,我们采用多层对抗监督在训练期间提供更强的指导,将不同尺度的生成图像组合并传播到不同尺度的鉴别器。我们还利用纹理损失来加强模态之间的纹理一致性。然而,由于在许多人脸操作任务中缺乏数据,没有提出风格转换之外的模态操作。尽管如此,我们提出的框架是朝着交互式操作迈出的一步,一旦相应的数据可用,就可以扩展到对更多模式的操作,我们将其留作未来的工作。