本文经人工智能新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。换脸从未如此高清。最流行的开源deepfake模型DeepFakeLab,在今年的更新中,最大分辨率也只达到了320×320。而这款来自迪士尼和ETHZ的全新deepfake,在保持高流畅度优良传统的同时,也一举将分辨率提升至1024×1024。这也是deepfake分辨率级别首次达到百万像素。现在换了脸之后,每一条眉毛都还清晰可见。运动画面的画面质量略有下降。用静态图感受一下清晰度:难怪网友们忍不住惊呼:鹅妹子。用于特效的高分辨率deepfake在此之前,deepfake技术的改进主要集中在平滑变脸效果上,而不是提高分辨率。但在320×320的分辨率下,换脸效果在手机上可能流畅无瑕,但在大屏上,瑕疵就很明显了。为了提高分辨率,Disney的研究主要引入了一个渐进式训练的多向梳状网络,并提出了一个完整的人脸交换管道,包括一种保留光线和对比度的混合方法,以减少视频中经常出现的不真实外观。抖动以生成时间稳定的视频序列。具体分为以下几个步骤:首先,对输入的人脸进行裁剪和归一化预处理,将人脸归一化为1024×1024的分辨率,并保存归一化参数。然后,将预处理后的图像输入通用编码器,并用相应的解码器Ds进行解码。最后,使用多波段混合方法交换目标面和源面。用于渐进式训练的多向梳状网络在网络架构方面,Disney采用了单个编码器和多个解码器,称为“梳状模型”。也就是说,网络的编码部分是共享的,而解码路径被分成P个域。这样,一个模型可以同时处理多个源-目标对。并且,实验表明,与双向模型相比,多向训练模型可以提高表示的保真度。由于多向编码器允许生成不同的输出,这些输出可以对应不同的身份以及不同光照条件下的同一张脸。此外,还有一个优点是与双向网络相比,使用单个网络可以显着减少训练时间。网络的训练采用渐进的机制。首先,对高分辨率输入数据进行下采样,形成粗略的低分辨率图像,这些低分辨率图像用于训练。之后逐渐将高分辨率图像加入到训练中,逐渐扩大网络的容量。RemovingTemporalArtifacts为了去除可见的时间伪影,研究人员还提出了一种稳定地标定位算法的方法。具体来说,首先对人脸进行检测和对齐,并标注出人脸边界框的宽度w。然后,通过在图像平面的不同方向上扰动βw个像素,将原始边界框重新初始化n次。研究人员发现,在1024×1024分辨率下,β=0.05和n=9消除了所有可见的时间伪影。一种保留光线和对比度的混合方法然而,即使人脸完美对齐,姿势和面部表情完美匹配,光度失调等问题仍然会导致换脸效果不协调。如明显接缝的外观。针对这一问题,研究人员采用了保留光线和对比度的多波段混合方式,并强制边界平滑效果只在面部内部传播,以确保外部面部轮廓不会被平滑掉。与常用的泊松混合(Poissonblending)方法相比,该方法在目标人脸图像和源人脸图像光照不同时具有更好的去伪像效果。那么,这种高清deepfake的效果应该如何评价呢?直看对比:deepfake登上大银幕,指日可待不过,研究人员也指出,这种高清deepfake仍然存在局限性。从示例中可以看出,大多数人脸图像都是直接面对相机的。夸张的表情、极端的角度和光线仍然会导致模糊和伪影。不过,分辨率的提升还是给deepfake带来了新的商业可能性。迪斯尼曾在《星球大战》系列电影《侠盗一号》中使用特效和换脸技术,将已故演员彼得库欣和嘉莉费雪带回银幕。然而,使用传统的特效技术,往往需要几个月的时间才能获得几秒钟的画面,成本非常高。相比之下,deepfake在建立原始模型后,可以在数小时内完成换脸视频的制作。看来,deepfake技术可能离在大银幕上实现也不远了。传送门论文地址:http://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/
