换脸视频是滥用DL的重大后果。只要网上有你的照片,就有可能换成其他背景或视频。不过有了这样开源的攻击模型,上传的照片就不再是问题了,deepfake也不能直接拿来当换脸用。看起来效果很好,就是加了一些人眼看不见的噪声,换脸模型已经不能生成正确的人脸了。这种思维不就是对抗性攻击吗?之前的攻击模型会通过“伪造真实图像”来欺骗识别模型。现在,攻击模型产生的噪声会武装人脸图像,从而欺骗deepfake,让deepfake无法生成欺骗人类的换脸模型。波士顿大学的这项研究发布后不久,就受到了众多研究者的热议,Reddit上的讨论也非常多。看到这篇论文,以及研究人员已经发布了GitHub项目,我们很可能会想“有没有可能把我们的照片发布到网上,之后就不用deepfake了?”但事情绝对没有我们想象的那么简单,Reddit用户Other-Top表示:“根据这篇论文,我需要先用这种方法处理照片,然后再上传照片,其他人使用会出错这个变脸。”也就是说,我们的照片,名人的照片,要通过攻击模型才能上传到网上。这样的照片安全吗?听起来比较麻烦,不过我们还是可以先看看这篇论文的研究内容,说不定还能想出更好的办法。在这篇论文中,研究人员在人眼无法感知的源图像中使用对抗性攻击,图像的生成结果受到对抗性噪声的干扰。这种破坏的后果是生成的图像将充分退化,以至于图像无法使用或图像的变化明显可见。换句话说,让deepfake生成明显虚假的视频的无形噪声。论文地址:https://arxiv.org/abs/2003.01279代码地址:https://github.com/natanielruiz/disrupting-deepfakesadversarialattack,Deepfake的克星对抗攻击,常用来欺骗各种图像识别模型,虽然它可以用于图像生成模型,但似乎意义不大。不过如果能用在deepfake等换脸模型上,还是很有前途的。在这篇论文中,研究人员沿着对抗攻击的道路“欺骗”了deepfake的换脸操作。具体来说,研究人员首先提出并成功应用:一种可泛化到不同类别的可迁移对抗攻击,这意味着攻击者不需要知道图像的类别;生成对抗网络(GAN)的对抗训练,这是迈向强大的图像翻译网络的第一步;在灰盒场景中,模糊输入图像可以成功抵御攻击,研究人员展示了一种绕过这种防御的攻击。图1:干扰deepfake生成的流程图。使用I-FGSM方法,将一组难以察觉的噪声应用于图像,之后可以成功扰乱人脸操纵系统(StarGAN)的输出。大多数人脸操作架构都是使用输入图像和一类目标条件进行训练的,例如使用某些属性来定义生成人脸的目标表情(例如为人脸添加微笑)。如果我们要防止人们给图片中的人脸添加微笑,我们需要明确选择微笑属性,而不是其他无关紧要的属性,比如闭上眼睛。因此,要依靠对抗攻击来欺骗deepfakes,首先需要梳理出图像带条件转换的问题,从而将之前的攻击方式迁移到换脸。研究人员还提出了两类可转移干扰变体,以提高对不同类属性的泛化能力。模糊照片是白盒测试场景中的决定性防御,在这种场景中,干扰器知道预处理的模糊类型和大小。此外,在现实世界中,干扰者可能知道所使用的体系结构,但忽略了混淆的类型和大小,在这种情况下,一般攻击方法的有效性将大大降低。因此,研究人员提出了一种新的扩频干扰方法,可以规避灰盒测试场景中的不同模糊防御。总的来说,虽然deepfake图像生成有很多独特之处,但经过了“传统图像识别”的adversarial攻击,修改后可以有效欺骗deepfake模型。如何攻击Deepfakes如果读者具有对抗性攻击的先验知识,本文后面描述的方法将更容易理解。总的来说,对于如何攻击deepfake等模型,研究人员表示可以分为一般的图像翻译破坏、他们新提出的条件图像修改、针对GAN的对抗训练技术和扩频破坏。我们可以先看看攻击的效果。原始未修改图像(未加抗噪)即可完成换脸。但是如果给它们加上抗噪,虽然人眼看不到输入图像有任何变化,但是模型已经无法根据这样一张照片完成换脸了。与对抗攻击一样,如果我们在图像中加入一些人眼无法识别但对机器非常敏感的噪声,那么依靠这样的图像,deepfakes就会受到攻击。目前流行的攻击方法主要基于梯度法和迭代法,其他许多优秀和先进的攻击方法都是基于它们的主要思想。这类方法的主要思想是找到一个使损失函数的变化最大化的小扰动,从而通过将这个小扰动添加到原始输入中,模型将错误分类到其他类别中。沿着反向传播计算损失函数对输入的导数通常很简单,并根据导数最大化损失函数,这样攻击者就可以找到最优的扰动方向并构造对抗样本来欺骗深度网络。比如早年提出的快速梯度符号法(FGSM),如果我们让x代表输入图像,G是完成换脸的生成模型,L是训练神经网络的损失函数,那么我们可以线性逼近当前权值Loss函数的邻域,得到使生成图像G(x)离原始换脸效果“r”最远的噪声η。FGSM可以通过反向传播快速计算梯度,找到增加模型损失最多的小扰动η。其他的,例如基本迭代方法(BIM),以较小的步长对FGSM进行多次迭代以获得更好的对抗样本。如下图所示,将最优扰动η加到原始输入x“人脸”上,再用这个“人脸”生成deepfakes会有问题。还有其他三种攻击方式,这里只介绍对抗攻击的核心思想。确实可以在一定程度上欺骗deepfakes,但是为了起到很好的效果,研究人员在论文中提出了三种比较完善的攻击方式。这里我们只简单介绍一下条件图像修改的思路,更多细节可以参考原论文。之前加噪声不是有条件的,但是很多换脸模型不仅输入人脸,还输入某个类别,这就是条件。如下,我们在图像生成G(x,c)中加入条件c,希望得到最大损失L,但只需要修改最小像素η即可。为了解决这个问题,研究人员展示了一种针对条件约束下的图像翻译方法的新攻击方法。这种方法可以加强攻击模型向各种类别迁移的能力。例如,如果类别是“笑脸”,那么将其输入攻击模型可以更好地生成使deepfakes无效的人脸。具体来说,研究人员对I-FGSM进行如下修改:实验效果实验表明,研究人员提出的图像级FGSM、I-FGSM和基于PGD的图像噪声添加方法可以成功干扰GANimation、StarGAN、pix2pixHD和CycleGAN等不同的图像生成架构。为了了解基于L^2和L^1测量图像“修改”对图像变换效果的影响,在下面的图3中,研究人员展示了干扰输出的定性示例及其各自的失真指标。图3:L_2和L_1距离之间的等价尺度和StarGAN干涉图像上的定性失真。对于论文中提出的迭代类可迁移干扰和联合类可迁移干扰,研究者在下图4中给出了定性的例子。这些扰动的目的是转移到GANimation的所有动作单元输入。图4:研究人员提出的攻击对换脸模型的影响。如上图所示,a为原始输入图像,不加噪声的GANimation结果为b。如果使用类别作为约束,则使用正确类别的攻击效果为c,未使用正确类别的攻击效果为d。下面的e和f分别是研究人员提出的迭代类别可迁移攻击效果和联合类别可迁移攻击效果,它们可以跨各种类别攻击deepfakes生成模型。在灰盒测试的设置中,干扰者不知道用于预处理的模糊类型和大小,因此模糊是抵抗对抗性破坏的有效方法。低幅度模糊可以抵消损害,但同时保持图像转换输出的质量。下面的图5显示了StarGAN结构中的一个示例。图5:高斯模糊防御的成功示例。如果图像控制器使用模糊来阻止敌对的干扰,那么对手可能不知道所使用的模糊的类型和大小。下面的图6显示了扩频方法在测试图像中成功实现干扰的比例。图6:不同模糊防御(L^2≥0.05)下不同模糊避免引起的图像干扰比例。图7:扩频干扰方法对采用高斯模糊(σ=1.5)防御的影响。第一行显示了针对混淆的初始攻击;第二行显示了扩频干扰方法,最后一行显示了白盒测试条件下的攻击效果。
