今年,人脸视频特效风靡全球。年初的《蚂蚁雅黑》(面唱),以及前不久让老照片动起来的特效,效果惊人。风格迁移一直是图像领域的热门方向。那么实时人脸画风迁移对视频有什么影响呢?事情是这样的:当然,视频风格转换并不是什么新鲜事。但这项研究最大的特点是它是移动的和实时的,它是由布拉格捷克理工大学的研究人员和Snap共同完成的。完整的论文已经发布,相关代码将在下个月发布。项目地址:https://ondrejtexler.github.io/faceblit/论文地址:https://ondrejtexler.github.io/res/faceblit-paper.pdf具体来说,研究人员提出了一种基于实例的实时视频人脸styletransferframeworkFaceBlit,它以语义上有意义的方式保留了风格的纹理细节,即用于描述特定风格特征的笔画出现在目标图像的适当位置。与以往的风格迁移方法相比,该框架不仅保留了目标主体的身份,而且不需要庞大的数据集和冗长的训练周期来实现实时操作。为此,研究人员修改了Fi?er等人的面部风格化流程。(2017),以便可以快速生成一组引导通道,这不仅保留了目标对象的身份,而且还与Sykora等人兼容。(2019)基于补丁合成算法的更快变体。由于这些方法上的改进,研究人员创建了第一个系统框架,用于将单个肖像的艺术风格实时转移到目标视频中的人脸,甚至在移动设备上也是如此。完整的生成效果可以参考以下视频:实时视频人脸风格迁移方法介绍本研究方法的输入是人脸示例图像𝑆和目标人脸视频序列T。该研究假设面部表情和运动的变化是基于受试者看着相机并且没有被其他物体遮挡。该研究的输出是一个程式化序列𝑂保留了𝑆的重要艺术特征。同时保留目标主体的身份。尽管已经可以使用Fi?er等人的方法产生这样的输出。[2017],这里的一个主要缺点是他们的方法只适用于离线处理。为了实现实时性能,研究人员需要改变引导通道的计算方式,并替换Fi?er等人的慢速基于补丁的合成算法。[2016]与Sykora等人提出的更快的变体。[2019].在Fi?er等人提出的方法中,使用四个引导通道来驱动合成。分割指南𝐺_seg,通过将面部细分为一组区域(头发、眉毛、鼻子、嘴唇、嘴巴、眼睛和皮肤)来描绘重要的面部特征;positionalguide𝐺_pos,编码源人脸和目标人脸之间的空间对应关系。这两个通道确保语义上有意义的传输。为了保留目标对象的身份特征,Fi?er等人。采用外观指南(appearanceguide)𝐺_app方法来减少源图像和目标图像之间的域差距。最后,时间指的是𝐺_temp以加强时间一致性,而𝐺_temp由程式化帧的运动补偿版本表示。由于上述引导通道的计算需要数十秒,因此在实时场景中使用它们并不容易处理。相反,本研究将四个通道简化为两个基本通道𝐺_pos和𝐺_app(如图2所示),改变底层生成算法,并将准备时间减少到几十毫秒。最后,该研究演示了如何将这两个新的引导通道合并到Sykora等人的快速合成算法中。[2019].研究人员表示,与其他风格迁移方法相比,能产生如此好的效果关键在于三个方面:位置引导、外观引导和直方图匹配。下图是使用和不使用位置和外观指南生成的渲染图的比较。可以看到,在没有positionguides或者appearanceguides的情况下,生成的动态效果图都有不同程度的瑕疵:另外,在生成目标appearanceguide的时候,GHistogrammatching也很重要,当^T_app.从技术上讲,如果appearance-guidedhistogram不匹配,误差E会很快超过阈值t,这会导致chunk明显变小,结果可能看起来很模糊。如下图8a所示,当没有直方图匹配时,不能很好的保留目标物体的身份,生成效果比较模糊;如图8b所示,经过直方图均衡化后,生成效果有了明显的提升,而且清晰。有无直方图匹配的动态生成效果对比如下:最后,研究人员采用混合的方法,让目标人像栩栩如生,“复制”出视频中人脸的各种表情。奇迹般的一幕出现了,古神像画“活”了:
