当前位置: 首页 > 科技观察

从单个肖像生成视频!中国团队提出3D人脸视频生成模型实现SOTA

时间:2023-03-13 05:57:48 科技观察

一张人脸如何生成有趣的视频?当然,并不是说直接贴在人头上的粗糙gif人脸视频的生成通常是利用人脸图像的稀疏特征点(landmarks)结合生成对抗网络(GAN)。然而,这种由稀疏人脸特征点生成的人脸图像视频通常会遇到很多问题。如图像质量损失、图像失真、身份改变、表情错配等。因此,为了解决这些问题,本文作者利用重构的3D人脸动态信息来指导人脸视频的生成。论文地址:https://ieeexplore.ieee.org/abstract/document/9439899arXiv版本:https://arxiv.org/pdf/2105.14678.pdf在三维面部动力学中,人的面部表情和动作更加细腻,这可以作为强大的先验知识指导生成高度逼真的人脸视频。在这篇论文中,作者设计了一套3D动态预测和人脸视频生成模型(FaceAnime)来预测单张人脸图像的3D动态序列。通过稀疏纹理映射算法进一步渲染3D动态序列的皮肤细节,最后使用条件生成对抗网络来指导人脸视频的生成。实验结果表明,FaceAnime可以从单个静止人脸图像生成高保真、身份不变的人脸视频,优于其他方法。背景和贡献目前的人脸视频生成方法通常使用人脸的稀疏地标来指导图像或视频的生成。但是,作者认为,使用稀疏的二维特征点来指导人脸图像/视频的生成存在明显的缺点:稀疏的人脸特征点不能很好地表示人脸图像的几何形状,容易造成人脸整体形状不均匀。面部和面部结构的细节。缺失,进而导致合成图像的失真和质量损失;稀疏的二维特征点不携带源人脸图像的任何内容信息,这可能导致生成的图像对仅包含训练集的人脸图像过拟合;视频生成时应保留人脸身份信息,但稀疏的二维特征点没有身份信息,容易导致合成结果身份发生变化。因此,文章在这些方面做出了以下贡献:与广泛使用的用于图像/视频引导生成的2D稀疏人脸特征点不同,文章主要探索包含丰富人脸信息的3D动态信息的人脸视频生成任务;设计了一个3D动态预测网络(3DDyn??amicPrediction,3DDP)来预测时间和空间上连续的3D动态序列;提出了一种稀疏纹理映射算法来渲染预测的3D动态序列,并将其作为先验信息来指导人脸图像/视频的生成;文章采用随机可控的方法生成视频来验证所提方法的有效性。方法描述本文提出的FaceAnime包括3D动态预测网络(3DDyn??amicPrediction,3DDP)和先验引导人脸生成网络(Prior-GuidedFaceGeneration,PGFG)。该方法首先基于3DMorphableModels(3DMM)对单张人脸图像进行3D重建,然后3DDP网络预测图像未来的3D动态序列,再用稀疏纹理映射渲染动态序列,最后使用PGFG网络完成相应的人脸生成。FaceAnime整体框架,FaceAnime整体框架在3DDP网络部分,3D人脸重建和稀疏纹理映射在PGFG网络部分。3D变形模型(3DMorphableModel,3DMM)用于从2D人脸图像中预测对应的3D人脸。.其中,描述3D人脸的顶点(vertex)可以通过2D人脸中的一系列正交基进行线性加权:其中,Sbar为平均人脸,As为形状主成分基,as为相应的形状系数,Aexp为表达式主成分基,aexp为对应的表达式系数。反之,3D人脸顶点也可以通过变换映射到2D图像平面,对应的公式可以表示为:其中V表示3D顶点在2D平面上的映射坐标,Π为固定的正交映射矩阵,Pr是对应的旋转矩阵,t是偏移向量。通过最小化映射的地标和检测到的地标之间的l2距离,最终可以获得3DMM中的系数。给定一张源人脸图像(SourceFace),通过改变重构的3DMM系数可以任意修改其3D形状,然后通过修改后的3DMM系数得到目标人脸的稀疏纹理。在人脸重定向任务中,修改后的3DMM系数可以从参考人脸视频帧中获得,而在人脸预测任务中,它们由LSTM模块预测。为了防止在纹理映射中密集的纹理先验信息过强,可能导致目标动作产生不良结果,本文在纹理映射过程中采用区间采样,即稀疏纹理映射,以适应不同的人脸运动变化。.给定不同的3DMM系数,不同的3D人脸重建和稀疏映射的结果与之前针对某个任务的视频生成不同。在这篇论文中,作者提出了三种不同的生成任务,即人脸视频重建。方向(Facevideoretargeting)、视频预测(Videoprediction)和目标驱动视频预测(Target-drivenvideoprediction)。对于重定向任务,作者使用参考视频来提供序列变化信息而不是3DDP进行预测。视频预测:给定一个观察到的动态序列(3DMM系数),LSTM对其进行编码:为了预测一个合理的动作,LSTM必须首先学习大量的动作输入,以识别姿势序列中的运动类型和随后的时间变化。在训练过程中,可以通过以下公式生成未来的动态序列:其中dthat表示预测的3DMM系数,表示t时刻的3D动态。基于以上公式,模型可以从一个初始的动态d0中学习到一个合理的未来序列。Target-drivenvideoprediction:对于LSTM,要实现target-guidedmotiongeneration,模型需要两个输入,即sourcedynamic和targetdynamic。与视频预测不同的是,作者使用了一个定时器来重新加权目标动态。整体的LSTM预测可以表示为一个公式:其中dT表示目标动态,T是预测长度,即t=0表示序列的开始时间,t=T是序列的结束时间。损失函数:给定一张源人脸图像,作者使用2DAL模型回归对应的3DMM系数来表示初始的3D动态d0。然后模型通过观察d0生成一个系数序列d1:That。在训练过程中,作者使用了3DMM系数损失和3D顶点损失两个损失函数进行监督学习。3DMM系数损失定义为预测的3DMM系数与groundtruth3DMM系数之间的欧氏距离:而3D顶点损失定义为:其中v1+that和v1+t分别是预测系数和三者对应的标准系数人脸信息的维顶点。那么整体损失函数可以表示为:先验引导人脸生成:基于所提出的稀疏纹理映射,源人脸图像用于渲染预测的3D动态。在这里,稀疏纹理被用作先验信息来指导人脸生成。文中提到的网络PGFG(Prior-GuidedFaceGenerationNetwork)主要由条件GANp网络构成。PGFG网络的结构:PGFG生成器G有三个输入,分别是源面Is、Is对应的纹理先验ps和pt目标的纹理先验。这里作者并没有直接使用目标的纹理先验pt作为先验指导,而是使用先验残差来指导人脸生成,在特征空间可以得到运动残差:E(pt)-E(附注)。由此,可以得到最终的人脸:为了进一步利用不同空间位置的特征信息,编码器和解码器都由Denseblock组成。鉴别器有两个输入,即目标人脸图像的纹理先验和输入[pt,Ithat]和[pt,It]分别与生成的人脸和目标人脸结合。损失函数:网络PGFG由三个损失函数监督,分别是图像像素之间的损失Limg、对抗损失Ladv和身份信息损失Lid。需要注意的是,在身份信息丢失方面,R是一个预训练的人脸识别模型。网络的整体损失函数为:ResultsandAnalysis作者在人脸视频重定向、视频预测和目标驱动视频预测这三个任务上做了大量的实验。人脸视频重定向:在这个任务中,作者对面部表情重定向和头部语音重定向两个子任务进行了实验。实验表明,所提出的FaceAnime模型可以很好地将源人脸图像中的表情和动作重定向到目标图像,并生成相应的手势和语音表情。FaceAnime的面部表情重定向(a)和头部语音重定向(b)实验结果人脸视频预测:该任务包括视频预测和目标驱动视频预测两个子任务。对于每个预测任务,作者在实验过程中随机选择从人脸图像测试集IJB-C中提取的单张人脸图像。对于视频测试,作者首先使用3DDP网络从源人脸预测一个运动序列,然后使用这个序列来指导人脸视频的生成。而对于对象引导的人脸预测任务,需要两个输入图像。一张是源脸,一张是目标脸。3DDP网络用于预测从源人脸到目标人脸的平滑运动变化,从而指导人脸视频的生成。FaceAnime'svideogenerationresultsFaceAnime'sgoal-drivenvideogenerationresults为了展示所提方法的先进性,作者还与其他算法进行了类似任务的效果对比。FaceAnime与其他方法的对比结果。相比之下,FaceAnime不仅可以生成高质量真实的人脸视频序列,而且生成的视频图像可以准确还原参考视频中的面部表情和姿势变化,还可以更好地保持人脸。人脸身份信息。大量实验表明,作者提出的方法可以将参考视频的姿势和表情变化重新定位到源人脸,对于随机的人脸图像,可以生成合理的未来视频序列。与其他最先进的人脸生成方法相比,所提出的方法在生成高质量和保持身份的人脸方面具有更好的结果。作者介绍了获得博士学位的涂晓光。2020年获电子科技大学博士学位。2018-2020年在新加坡国立大学学习与视觉实验室做访问学者,师从冯嘉石博士。研究兴趣包括凸优化、计算机视觉和深度学习。邹应天,新加坡国立大学计算机学院在读博士。2018年,他在中国武汉的华中科技大学获得计算机科学学士学位。他的研究兴趣是计算机视觉、实用机器学习算法及其理论。赵健2012年获得北京航空航天大学学士学位,2014年获得国防科技大学硕士学位,2019年获得新加坡国立大学博士学位。主要研究方向包括深度学习、模式识别、计算机视觉、和多媒体分析。获得ACMMM2018最佳学生论文奖。担任NSFC、T-PAMI、IJCV、NeurIPS(2018年NeurIPS评分最高的前30%审稿人之一)、CVPR等的特邀审稿人。艾文杰,电子科技大学信息与通信工程学院在读硕士。他的研究兴趣主要包括计算机视觉和深度学习,尤其是超分辨率和去模糊。董建,IEEE会员,博士。来自新加坡国立大学。目前是Shopee的董事。360前高级总监,亚马逊研究科学家。他的研究兴趣包括机器学习和计算机视觉,曾在PASCALVOC和ILSVRC比赛中获奖。元元,新加坡澎思研究院人工智能科学家。2019年获得新加坡国立大学电气与计算机工程硕士学位。2019年在剑桥大学剑桥图像分析组做访问学者。他的研究兴趣包括生成对抗网络、光流估计和人脸识别。王志康,西安电子科技大学电子工程学院硕士研究生。2019-2020年在新加坡国立大学学习与视觉实验室做访问学者。他的研究兴趣包括计算机视觉、深度学习和多媒体数据处理。李志峰,腾讯人工智能实验室首席研究员。2006年获得博士学位。来自香港中文大学。之后先后在香港中文大学和密歇根州立大学从事博士后研究。在加入腾讯人工智能实验室之前,他是中国科学院深圳先进技术研究院的全职教授。他的研究兴趣包括深度学习、计算机视觉和模式识别,以及人脸检测和识别。他目前担任《神经计算》和《IEEE视频技术电路与系统》的编辑委员会成员,并且是英国计算机协会(FBCS)的院士。郭国栋获得博士学位。威斯康星大学麦迪逊分校计算机科学专业。现任百度研究院深度学习研究所副所长,西弗吉尼亚大学(WVU)计算机科学与电气工程系副教授。他的研究兴趣包括计算机视觉、生物统计学、机器学习和多媒体。他于2008年获得北卡罗来纳州杰出创新奖、西弗吉尼亚大学CEMR杰出研究员(2017-2018)和西弗吉尼亚大学CEMR年度新研究员(2010-2011)。刘炜,腾讯人工智能实验室计算机视觉中心主任。2012年至2015年在美国纽约约克敦高地的IBMT.J.Watson研究中心担任研究员。致力于机器学习、计算机视觉、模式识别、信息检索、大数据等领域的研究与开发。目前担任IEEETransactionsonPatternAnalysisandMachineIntelligence、IEEETransactionsonNeuralNetworksandLearningSystems、IEEETransactionsonCircuitsandSystemsforVideoTechnology、PatternRecognition等编委。他是国际模式协会会士Recognition(IAPR)andanelectedmemberoftheInternationalStatisticalInstitute(ISI).冯嘉士于2007年获得中国科学技术大学工学学士学位,2014年获得新加坡国立大学博士学位。2014-2015年在美国加州大学从事博士后研究工作。他目前是新加坡国立大学电气与计算机工程系的助理教授。研究兴趣集中在用于大规模数据分析的机器学习和计算机视觉技术。