本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。造就无数“小视频”、恶搞众多明星的知名换脸神器Deepfakes,遭遇降维冲击。这个新的AI不再篡改视频,而是直接将静态照片变成视频。就这样,一张施瓦辛格的照片:开始说话了:说唱歌手TupacShakur:也可以张嘴了:只要有一张人脸的静态照片,不管是谁,在这个新AI的驱动下,都可以加上一段语音,你可以张开嘴说话。当然,除了会说话,唱歌也没有问题,比如请生活在一百多年前的“俄罗斯僧侣”拉斯普京来唱碧昂斯的《光环》。虽然声音与性别不符,但画面与歌曲的结合却有种莫名的鬼魅感。别以为这个AI只能对照片进行口型同步,它还可以让说话者产生各种情绪。喜:悲:炸:这眉毛,这眼睛,这脸肌,得救多少“面瘫”演员啊!这项研究来自帝国理工学院和三星。研究人员还准备了一组图灵测试,包含24个真假难辨的视频。我们只是简单地测试了一下,只猜对了一半左右。也就是说,这些AI生成的“真假孙悟空”,足以欺骗人类。相比之前斯坦福通过输入任意文字改变视频人物嘴型的研究,以及三星的变脸语音,实现难度可以说要高很多。不少网友闻言脸色大变:拉斯普京现在唱的是Halo,以后会不会竞选墨西哥很可怕。就连科技媒体TheVerge也评论道:这样的研究总是让人担心会被用于造谣和政治宣传,这对美国立法者来说确实很麻烦。当然,你也可以说这种政治领域的威胁并没有那么严重,但deepfakes确实伤害了一些人,尤其是女性,在未经同意的情况下被用来制造令人尴尬和羞辱的色情内容。视频。也有人认为,技术普及后,干坏事的人就有了掩饰的理由:等技术成熟了,实际干坏事的小视频出来,他可以淡淡地说这是一个假视频。呵呵,厉害了。以后坏人被抓到的时候,他们可以说“没事,是假视频”。多鉴别器结构是如何利用一张照片制作出连贯的视频的?研究人员认为,这需要TemporalGAN的帮助。从逻辑上不难理解,想要生成的假视频逼真,在屏幕上至少要满足两个因素:一是人脸图像必须是高质量的,二是需要配合谈话内容,协调嘴唇、眉毛等五官。地点。无需使用复杂的面部捕捉技术。现在,只能使用机器学习的方法来自动合成人脸。这中间的秘密就在于时序生成对抗网络,也就是之前在2018年提出的TemporalGAN,这是一个端到端的语音驱动的人脸动画合成模型,可以从静止图像生成人脸视频,一个演讲。TemporalGAN中有两个判别器,一个是帧判别器,保证生成的图像清晰细致,一个是序列判别器,负责响应听到的声音,生成相应的面部动作,但效果不是很好.△TemporalGAN模型示意图论文End-to-EndSpeech-DrivenFacialAnimationwithTemporalGANs地址:https://arxiv.org/abs/1805.09313在这项工作中,研究人员借用了这个时序生成对抗网络,使用两个A时间鉴别器,它对生成的视频执行视听对应以生成逼真的面部运动。同时,也鼓励模型进一步自发产生新的面部表情,比如眨眼。所以,最新版本的基于语音的人脸合成模型来了。该模型由一个时间生成器和3个鉴别器组成。结构如下:这是一个有序的分工结构。生成器负责接收单个图像和音频信号作为输入并将其拆分为0.2秒的重叠帧,每个音频帧必须以视频帧为中心。这个生成器由一个内容编码器(ContentEncoder)、一个识别编码器(IdentityEncoder)、一个帧解码器(FrameDecoder)和一个声音解码器(NoiseGenerator)组成。不同的模块组合成一个可嵌入的模块。通过解码将网络转换成帧。该系统使用多个鉴别器来捕获自然视频的不同方面,每个方面都有自己的作用。帧鉴别器(FrameDiscriminator)是一个6层??的卷积神经网络来判断一个帧是真的还是假的,同时实现说话人面部的高质量视频重建。序列鉴别器确保各个帧形成显示自然运动的连贯视频。同步鉴别器(SynchronizationDiscriminator)加强了对视听同步的要求,决定了画面和音频应该如何同步。它使用两个编码器获取音频和视频的嵌入信息,并根据欧氏距离给出判断。同步鉴别器的结构如下:就是这样,不需要昂贵的面部捕捉技术,就这样一个网络就可以将一张照片+一段音频组合成流畅连贯的视频。CVPR的30多位作者本研究共有三位作者,分别是KonstantinosVougioukas、StavrosPetridis和MajaPantic,均来自伦敦帝国理工学院iBUG组,专注于理解智能行为,第二部和第三部作品也来自英国三星人工智能中心的工作人员。首位KonstantinosVougioukas于2011年获得帕特雷大学电气与计算机工程本科学位,后赴爱丁堡大学攻读人工智能硕士学位。现在,KonstantinosVougioukas正在攻读博士学位。师从伦敦帝国理工学院MajaPantic教授(本文第三作者),主要研究方向为人类行为合成和人脸行为合成。MajaPantic教授是iBUG小组组长,剑桥三星AI中心研究主任。在面部表情分析、人体姿态分析、情绪与社会信号分析等方面发表论文250余篇,被引用超过25000次。.自2005年以来,MajaPantic带领学生发表了30多篇CVPR(包括workshop)论文。MajaPantic教授主页:https://ibug.doc.ic.ac.uk/people/mpantic门户论文RealisticSpeech-DrivenFacialAnimationwithGANs地址:https://arxiv.org/abs/1906.06337项目主页:https://sites.google.com/view/facial-animationGitHub:https://github.com/DinoMan/speech-driven-animation
