当前位置: 首页 > 科技观察

去除双下巴有一个独特的方法,浙大2000年后本科生新美颜算法现身ACMSIGGRAPH

时间:2023-03-19 13:26:41 科技观察

随着社交网络、直播和短视频的流行,为了给别人留下更好的印象,人脸编辑的“应用范围”“美”的研究范围越来越广,科学技术的不断发展催生了人脸编辑的众多研究分支。其中,生成对抗网络(GAN)的潜在空间一直是研究热点,而现在越来越多的工作集中在潜在空间中潜在代码的操纵和语义解耦。StyleGAN是一种生成对抗网络,可以生成高质量的人脸图像,其潜在空间具有非常线性的特性。利用StyleGAN的这一特性可以实现高质量的人脸编辑,应用场景广泛,但是如何在改变特定特征的同时保持其他不相关的特征不变,即解耦功能,仍然是一个难题。针对这一问题,浙江大学计算机辅助设计与图形学国家重点实验室、浙江大学-腾讯游戏智能图形创新技术联合实验室的研究人员提出了一种在StyleGAN的隐空间中训练精细分离边界的方法,仅使用一个向量可以进行语义特征编辑,同时保持其他面部特征不变。以去除双下巴为例,该方法效果很好:图1:有双下巴的人像图像(第一行),去除双下巴后的新人像(第二行)。研究论文《Coarse-to-Fine: Facial Structure Editing of Portrait Images via Latent Space Classifications》已被计算机图形学国际顶级学术会议ACMSIGGRAPH2021录用。论文地址:http://www.cad.zju.edu.cn/home/jin/sig2021/sig2021.htm研究方向在CV领域,生成对抗网络的潜在空间一直是研究热点,现在越来越多的工作集中在隐藏代码的操纵上。InterFaceGAN探索了生成的对抗网络的隐藏空间是如何编码的,并提出了一种使用分离边界编辑语义属性的方法;In-domainGAN可以将输入图像逆向生成对抗网络的隐藏空间,并作为正则化器对隐藏代码进行微调,提出语义扩散的方法。鉴于潜在空间对于StyleGAN研究的重要性,越来越多的工作开始关注如何高效、高质量地将图像反转回StyleGAN的潜在空间,并得到相应的隐藏代码;在此基础上,基于StyleGAN的projector可以直接将图像反转回latentspace,从而进行image-to-image的转换,实现人脸姿势变化、人脸之间的线性插值等,而Image2StyleGAN可以将图像反转回latentspace潜在空间并执行语义编辑。结合隐藏代码和3D模型还可以参数化调整面部特征。GIF将StyleGAN应用于生成的3D人脸模型(FLAME)以明确控制生成的图像;StyleRig基于StyleGAN和3DMM进行面部Rigging控制,以参数化方式调整面部。研究思路新研究的核心思想是在潜在空间中训练具有精细分离边界的StyleGAN。分离边界是InterFaceGAN提出的隐藏空间中的超平面,但InterFaceGAN训练的分离边界不能分离不相关的特征。本文提出了一个精心设计的训练过程,生成一对只改变了特定特征的隐藏代码(在去除双下巴的例子中,这些隐藏代码除了是否有双下巴外,其他特征基本相同),并从这些对隐藏代码代码训练精细的分离边界,使面部结构编辑成为可能。本研究首先训练一个双下巴分类器根据双下巴的存在与否在StyleGAN的潜在空间中对隐藏代码进行评分,然后使用随机采样的隐藏代码及其对应的下巴分数进行训练以获得粗略的分离边界,用于合成没有双下巴的中间人像。在此过程中,其他人脸特征,如人脸形状、姿势等,经过粗略的分离边界编辑后,无法很好地保留下来。为了解决这个问题,本研究引入了一种语义扩散的方法,该方法使用一个可以将双下巴特征与其他特征分离的颈部掩码,将中间人像新下巴的语义扩散到原始图像中,从而获得没有人像图像的人像图像。双下巴和保养五官及其对应的隐藏密码。最后,该研究使用具有和不具有双下巴的潜在代码对来训练精细的双下巴分离边界。在测试阶段,对输入的隐藏代码进行精细的双下巴分离边界编辑,利用图像变形算法对输入输出图像在人脸边缘的细微错位进行优化,得到最终结果。图2:研究流程图,详见原论文。结果表明,该研究在大量不同性别、姿势、脸型和肤色的人像图像上测试了该方法的性能。图3显示了本研究中提出的方法自动生成的结果。以去除双下巴为例,该方法成功去除了输入人像图像中的双下巴,同时很好地保留了其他特征。图3:研究结果。前四行是不断调整参数的结果,后四行每对图像中,左图为原始图像,右图为得到的结果。与目前最先进的人脸编辑方法(SOTA)相比,本研究产生的结果更加稳定合理,保持了人脸特征的不变性,符合人脸结构。图4:方法比较。第一行是输入的人像图像,第二行是MaskGAN的结果,第三行是SC-FEGAN的结果,第四行是GenerativeInpainting方法的结果,最后一行是我们的结果方法。研究人员希望这项研究能够为人脸编辑带来新的思路,也希望对StyleGAN的潜在空间研究有所启发。作者简介论文第一作者为吴益倩,女,21岁,浙江大学本科高年级学生,将于今年9月在浙江大学CAD&CG国家重点实验室攻读博士学位。他的研究兴趣是计算机视觉和人脸编辑。个人主页:https://onethousandwu.com/论文作者杨永良,英国巴斯大学副教授。他获得了博士学位。2009年获清华大学计算机科学与技术系博士学位。2009年至2011年在阿卜杜拉国王科技大学(KAUST)从事博士后研究。2011年9月至2014年8月在KAUSTVisual担任助理研究员计算中心。在Siggraph和SiggraphAsia发表论文9篇。主要研究方向为数字几何处理、虚拟现实和人工智能。个人主页:http://www.yongliangyang.net/论文作者肖钦杰,浙江大学CAD&CG国家重点实验室博士研究生。毕业于浙江大学数学系,获学士学位。研究方向为3D人脸重建、评价与编辑。论文通讯作者金晓刚,浙江大学计算机学院教授、博士生导师。“十三五”国家重点研发计划首席科学家,浙江大学-腾讯游戏智能图形创新技术联合实验室主任,浙江省虚拟现实产业联盟理事长,中国计算机学会虚拟现实与可视化专业委员会副主任委员,杭州钱江特聘专家。第九届霍英东青年教师基金获得者、浙江省杰出青年基金获得者,入选教育部新世纪优秀人才支持计划。在ACMTOG(Proc.ofSiggraph)、IEEETVCG等国际重要学术期刊发表论文140余篇。2008年获得教育部优秀科研成果奖自然科学奖一等奖,2017年获得浙江省科技进步二等奖,2015年获得美国ACM表彰的服务奖。获国际计算机动画学术会议CASA'2017和CASA'2018最佳论文奖,《计算机真实感图形的算法基础》获2001年国家科技图书奖二等奖。个人主页:http://www.cad.zju.edu.cn/home/jin/