当前位置: 首页 > 科技观察

DeepFakes从未如此真实!Nvidia最新的“隐性失真”到底有多强?

时间:2023-03-18 21:27:59 科技观察

近年来,计算机视觉领域的生成技术越来越强,相应的“伪造”技术也越来越成熟。从DeepFake换脸到动作模拟,真假难辨。最近,英伟达又做了一个大动作。在NeurIPS2022会议上,它发布了一个新的隐式变形(ImplicitWarping)框架,该框架使用一组源图像和驾驶视频的运动来创建目标动画。论文链接:https://arxiv.org/pdf/2210.01794.pdf从效果来看,生成的图像更加逼真,人物在视频中移动,背景不会发生变化。多个输入源图像通常提供不同的外观信息,这减少了生成器的“幻想”空间。例如下面两个作为模型输入。可以发现,与其他模型相比,隐式失真并没有产生类似于美颜效果的“空间失真”技术。由于人的遮挡,多源图像也可以提供更完整的背景。从下面的视频可以看到,如果左边只有一张图,很难猜出背景后面是“BD”还是“ED”,会导致背景失真,两张图会生成更稳定的图像。与其他模型相比,只有一个源图像也表现更好。神奇的隐性失真学术界早在2005年就可以追踪到视频模仿,许多项目,如面部再现的实时表情传输、Face2Face、合成奥巴马、Recycle-GAN、ReenactGAN、动态神经辐射场等,使得多样化地利用当时可用的有限资源。生成对抗网络(GAN)、神经辐射场(NeRF)和自动编码器等多种技术。并非所有方法都试图从单帧图像生成视频,一些研究对视频中的每一帧进行复杂的计算,这实际上是Deepfake走的模仿路线。但由于DeepFake模型获取的信息较少,需要针对每个视频片段进行训练,与DeepFaceLab或FaceSwap等开源方法相比性能有所下降。这两种模型可以将身份强加给任意数量的人。在视频剪辑中。2019年发布的FOMM模型可以让角色随着视频移动,给视频模仿任务又打了一针强心剂。然后其他研究人员试图从单个面部图像或全身表示中获取多个姿势和表情;但这种方法通常只适用于相对无表情和不动的主体,比如相对静止的“会说话的头像”,因为没有网络要解释的面部表情或手势的“行为突然变化”。虽然其中一些技术和方法在deepfakes和潜在的扩散图像合成方法爆炸之前就获得了公众的关注,但它们的适用性有限并且其多功能性受到质疑。Nvidia这次重点关注的隐式失真是获取多帧甚至两帧之间的信息,而不是从一帧获取所有必要的姿态信息。此设置在其他竞争模型中。不存在,或处理得很差。比如迪士尼的工作流程是高级动画师绘制主帧和关键帧,其他初级动画师负责绘制中间帧。通过测试之前的版本,英伟达的研究人员发现,之前的方法的结果质量会随着“关键帧”的加入而变差,而新的方法则符合动画制作的逻辑。随着关键帧数量的增加,性能也会提高。将以线性方式增加。如果剪辑中间有一些突然的变化,比如在开始帧或结束帧中没有显示的事件或表情,隐式失真可以在这个中间点添加一帧,附加信息将是反馈到整个剪辑。注意力机制。模型结构以前的方法,如FOMM、Monkey-Net和face-vid2vid等,使用显式扭曲来绘制时间序列,从源面部和控制运动中提取的信息必须符合并符合该时间序列。在这种模型设计下,关键点的最终映射是相当死板的。相比之下,隐式变形使用跨模态注意力层,其工作流程中预定义引导较少,可以适应来自多个帧的输入。该工作流程也不需要在每个关键点的基础上进行变形,系统可以从一系列图像中选择最合适的特征。隐式变形还重用了FOMM框架中的一些关键点预测组件,并最终使用简单的U-net对派生的空间驱动的关键点表示进行编码。一个单独的U-net用于对源图像和派生的空间表示进行编码,两个网络都可以在64px(256px平方输出)到384x384px的分辨率范围内运行。由于此机制无法自动考虑任何给定视频中姿势和运动的所有可能变化,因此需要额外的关键帧并且可以临时添加。如果没有这种干预能力,与目标运动点相似度不足的键将自动升级,从而导致输出质量下降。研究人员对此的解释是,虽然它是一组给定关键帧中与查询最相似的键,但可能不足以产生良好的输出。例如,假设源图像有一张闭着嘴唇的脸,而驾驶图像有一张张开嘴唇和露出牙齿的脸。在这种情况下,源图像中没有适合驱动图像嘴部区域的键(和值)。该方法通过学习额外的与图像无关的键值对来克服这个问题,这可以应对源图像中信息不足的问题。虽然目前的实现速度相当快,在512x512像素的图像上大约为10FPS,但研究人员认为,在未来的版本中,管道可以通过分解的I-D注意力层或空间减少的注意力(SRA)层(即金字塔视觉转换器)来优化.由于implicitwarping使用全局注意力而不是局部注意力,它可以预测以前模型无法预测的因素。实验结果研究人员在VoxCeleb2数据集、更具挑战性的TEDTalk数据集和TalkingHead-1KH数据集上测试了系统,比较了256x256px和完整512x512px分辨率之间的基线,使用的指标包括FID、LPIPS和峰值信噪比(pSNR)基于AlexNet。用于测试的比较框架包括FOMM和face-vid2vid,以及AA-PCA。由于以前的方法很少或根本没有能力使用多个关键帧,这也是隐式扭曲的主要创新点,因此研究人员也设计了类似的测试方法。在大多数指标上,隐式变形优于大多数对比方法。在一项多关键帧重建测试中,研究人员使用了多达180帧的序列和选定的间隙帧,这次隐式扭曲全面获胜。随着源图像数量的增加,该方法获得了更好的重建结果,所有指标的得分都有所提高。然而,随着源图像数量的增加,先前工作的重建性能变得更差,与预期相反。经过AMT工作人员的定性研究,也认为隐式变形的生成结果比其他方法更强。如果这样的框架可用,用户将能够制作更连贯和更长的视频模拟和全身深度造假,所有这些都能够展示比该系统尝试过的任何框架更大的运动范围。但对更逼真的图像合成的研究也引起了人们的关注,因为这些技术很容易被用于伪造,而且这篇论文附带了一个标准的免责声明。如果我们的方法被用来制作deepfake产品,可能会产生负面影响。恶意语音合成通过跨身份传输和发送虚假信息来创建虚假的人像,从而导致身份盗用或传播虚假新闻。但在受控环境中,同样的技术也可以用于娱乐目的。该论文还指出了该系统在神经视频重建方面的潜力,例如谷歌的ProjectStarline,在一个框架中,重建主要在客户端完成,使用来自另一端人的稀疏运动信息。该方案越来越受到研究界的关注,也有一些公司打算通过发送纯运动数据或间隔稀疏的关键帧来实现低带宽电话会议,这些数据将被解释并插入到完整的高清视频中。