当前位置: 首页 > 科技观察

黑科技检测方式:以心跳为信号,还能“抓”假模特

时间:2023-03-20 22:20:46 科技观察

假人像视频生成技术给社会带来了新的威胁,比如利用逼真的假图片和视频进行政治宣传、名人模仿、造假证据和其他与身份相关的操作。随着这些生成技术的发展,一些经过验证的deepfake检测方法已经出现,具有很高的分类精度。然而,几乎没有工作关注deepfake视频的起源(即生成deepfake视频的模型)。来自宾厄姆顿大学和英特尔公司的研究人员提出了一种方法,利用视频中的生物特征来检测视频是否是假的。该方法不仅可以区分真假视频,还可以发现deepfake视频背后的具体生成模型(生成模型在DeepFakes、Face2Face、FaceSwap、NeuralTex中选择)。一些纯粹基于深度学习的方法尝试使用CNN对假视频进行分类,CNN实际上是在学习生成器的残差。该研究认为,这些残差包含更多信息,可以通过将它们与生物信号分开来揭示伪造的细节。观察表明,生物信号中的时空模式可以被视为残差的代表性预测。为了证明这一观察的合理性,研究人员从真实和虚假视频中提取了PPG单元,并将它们输入到最先进的分类网络中,以检测每个视频的生成模型。实验结果表明,该方法对虚假视频的检测准确率为97.29%,对虚假视频背后的生成模型的识别准确率为93.39%。论文地址:https://arxiv.org/pdf/2008.11363.pdf本文的贡献如下:提出了一种新的deepfake视频源检测方法,为deepfake检测研究打开了新的视角;提出了一个新发现:将产生的噪声投射到生物信号空间,可以为每个模型创建一个独特的标识;提出了一种先进的通用deepfake检测器,它在分类真假视频方面优于现有方法,同时预测假视频背后的生成模型,即源生成模型。使用生物签名及其生成模型检测假视频生物签名已被证明可以作为真实视频的真实性标记,它也被用作深度伪造检测的重要生物标记。正如我们所知,假视频中的合成角色不可能具有与真实视频中相似的心跳模式。该研究的主要发现基于这样一个事实,即这些生物信号可以解释为包含每个模型残差识别的转换的虚假心跳。这导致了对生物签名的新探索,不仅可以用来确定视频的真实性,还可以对生成它的源模型进行分类。因此,本研究提出了一种可以检测deepfake视频并识别源生成模型的系统,如图1所示:为了持续捕捉生物信号的特征,研究人员定义了一个新的时空块——PPG单元。这个时空块结合了从固定窗口中提取的多个原始PPG信号及其功率谱。PPG单元的生成首先需要使用人脸检测器在每一帧中寻找人脸。第二步是从检测到的人脸(图1d)中提取感兴趣区域(ROI),该区域具有稳定的PPG信号。为了有效提取,研究人员使用眼睛和嘴巴之间的面部区域来最大限度地暴露皮肤。由于来自面部不同区域的PPG信号之间存在相关性,定位ROI并测量它们的相关性成为检测中的关键步骤。第三步需要将非线性ROI与矩形图像对齐。该研究使用Delaunay三角剖分[26],然后对每个矩形进行非线性仿射变换,将每个矩形转换为校正图像。在第四步中,我们将每个图像分成32个大小相等的正方形,并在ω帧大小的固定窗口中计算每个正方形的原始Chrom-PPG信号,这不会干扰人脸检测(图1e)。然后,计算校正图像中的Chrom-PPG,因为它会产生更可靠的PPG信号。对于每个窗口,现在有ω×32个原始PPG值。现在将它们重组为32行ω列矩阵,构成PPG单元的基础,如图1f和图2底部行的上半部分所示。最后一步将频域信息添加到PPG单元。计算窗口中每个原始PPG值的功率谱密度,并将其缩放到ω大小。图2的底行显示了从同一窗口生成的deepfakePPG单元的示例,顶行是每个窗口的样本帧。在定义PPG单元后,研究人员证明了他们的主要假设:将deepfake生成器的残差投射到生物信号空间会创建一个独特的模式,可用于检测deepfakes背后的源生成模型。实验本研究提出的系统是用Python语言实现的,使用OpenFace库进行人脸检测,OpenCV进行图像处理,Keras进行神经网络实现。表1列出了PPG单元在测试集上的分类结果,其中VGG19在区分4种不同的生成模型和检测FaceForensics++(FF)真实视频方面达到了最高的准确率(图1f)。像DenseNet和MobileNet这样的复杂网络由于过度拟合而获得了非常高的训练精度,但在测试集上却未能取得令人满意的结果。在视频分类方面,表2记录了该过程中的不同投票方案。研究人员设定ω=128,使用多数表决、最高平均概率、两个最高平均概率、logodds的平均值来比较VGG19的单元预测结果。如图3所示,该方法对五类FF(1个真实视频和4个假视频)的真实视频检测率达到97.3%,生成模型的检测准确率至少达到81.9%。研究人员在不同的设置下进行训练和测试:1)训练集中没有真实视频;2)PPG单元中没有功率谱;3)无生物信号;4)使用全帧而不是面部ROI,其中ω=64,并且FF数据集拆分设置为常数。结果如表3所示:使用上述设置,本文提出的方法在不同窗口大小ω={64,128,256,512}帧下进行测试。结果如下表4所示:为了证明本文提出的方法可以扩展到新模型,研究人员将FF设置与单个生成器数据集CelebDF结合,并重复分析过程。本研究提出的方法在整个数据集上实现了93.69%的检测精度,在CelebDF数据集上实现了92.17%的检测精度,表明该方法可以推广到新模型(见表5)。表6列出了不同模型在测试集上的准确率。从结果可以看出,本文提出的方法甚至超过了最复杂的网络Xception,准确率高出10%。