本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。同一张脸,不同的声音,竟然还能如此同步。DeepFake口型造假时,效果是这样的。你有没有发现,这些人的声音和语调都一模一样?闭上眼睛听,猜不出来是谁?吴恩达?马斯克?谁他妈在说话?与原视频相比,面部变化并不明显,效果非常自然。△使用知名YouTube数码博主Linus来搭配唇型。这是一种名为Wav2Lip的模型——一种用于生成准确口型同步视频的新方法,来自印度海得拉巴大学的一项新研究。任何角色身份,甚至是卡通人物,任何声音和语言,都可以将唇视频高精度同步到任何目标声音。目前该项目已经开源,可以体验Demo版~只需上传20s的视频和音频文件即可一键生成。这项研究在Reddit上发表后,在21小时内获得了200多个人气。对于这项研究的应用前景,作者表示可以应用于在线外语授课、电影配音、新闻发布会等,让人物和声音的融合更加自然,节省大量的人力物力。好吧,像许毒霸、怀修帮这样的配音团队,说不定还有用呢!现有对Wav2Lip模型的研究主要集中在在静态图像或视频中的特定字符中生成准确的嘴唇运动。但问题是无法准确地对动态图像进行变形,例如说话的人物和嘴唇的动作,导致内容无法与新音频完全同步。就像你看电影的时候,声音和画面不同步,是不是很不舒服?因此,研究人员找到了这个问题的关键原因,并通过一个“口型同步鉴别器”解决了这个问题。具体来说,有两个关键原因导致现有研究中使用的损失函数,即LipGAN中的L1重建损失和鉴别器损失,都不能减少错误的口型同步生成。因此,研究人员直接使用预训练的判别器“训练有素的口型同步专家”来检测口型同步错误,判别结果相当准确。此外,研究人员发现,对嘈杂面孔的进一步微调阻碍了鉴别器测量口型同步的能力,从而也影响了生成的唇形。最后,还采用视觉质量鉴别器来提高视觉质量和同步精度。例如,黄色和绿色框是本次提出的模型,红色框是现有最好的方法,文本是他们说的句子。可以看出,模型制作出的唇型比现有的唇型更加准确自然。模型训练结果在模型训练阶段,作者提出了两个新的指标,“Lip-SyncError-Distance”(越低越好)和“Lip-SyncError-Confidence”(越高越好),这两个指标可以测量视频中的口型同步准确性。结果发现,使用Wav2Lip生成的视频几乎和真正的同步视频一样好。需要注意的是,该模型只在LRS2上的训练集上训练,在其他数据集上训练时需要稍微修改代码。此外,还对现实的三种视频类型进行了评估。结果都表明Wav2Lip模型可以产生高质量和准确的口型同步视频,但是,在口型同步TTS生成的语音时仍有改进的空间。您如何看待这项研究?目前项目已经开源,试玩版可以自行体验~再次提醒:只需上传20s的视频和音频文件,即可一键生成!论文地址:https://arxiv.org/abs/2008.10010Demo演示视频:https://www.youtube.com/watch?v=SeFS-FhVv3g&feature=youtu.beGitHub地址:https://github.com/Rudrabha/Wav2LipDemo网址:https://bhaasha.iiit.ac.in/lipsync/
