当前位置: 首页 > 科技观察

基于深度学习的Deepfake检测综述

时间:2023-03-15 21:59:32 科技观察

深度学习(DL)已经成为计算机科学中最有影响力的领域之一,直接影响着当今人类的生活和社会。与历史上的所有其他技术创新一样,深度学习也被用于一些非法方式。Deepfakes就是这样一种深度学习应用程序。在过去的几年中,已经进行了数百项研究来发明和优化使用AI的各种Deepfake检测。本文主要讨论如何检测Deepfake。为了应对deepfakes,已经开发了深度学习方法以及机器学习(非深度学习)方法来检测。深度学习模型需要考虑大量参数,因此需要大量数据来训练此类模型。这正是DL方法与非DL方法相比具有更高性能和准确结果的原因。什么是DeepfakeDetection大多数deepfake生成器在deepfake过程中都会留下一些痕迹。Deepfake视频中的这些变化可以归类为空间不一致:视频的各个帧内发生的不兼容性和时间不一致:视频帧序列中发生的不兼容特征。空间不一致包括与视频帧背景不兼容的面部区域、分辨率变化以及部分渲染的器官和皮肤纹理(可能无法正确渲染面部的所有人体特征)。大多数常见的deepfake生成器无法渲染眨眼和牙齿等特征。有时会使用白色条带代替在静止画面上肉眼甚至可见的牙齿(下图)。时间不一致包括异常眨眼、头部姿势、面部运动和视频帧序列中的亮度变化。deepfake生成器留下的空间和时间痕迹都可以由深度神经网络(DNN)制成的deepfake检测器识别。熟悉的生成对抗网络(GAN)在deepfake生成器中的广泛应用挑战了假检测和生成之间的平衡。Deepfake检测Deepfake检测器是二进制分类系统,可确定输入的数字媒体是真实的还是虚假的。Deepfake检测不是由单个类似黑盒的模块执行的,而是由多个其他模块和步骤组成,这些模块和步骤协同工作以提供检测结果。Deepfake检测的常见步骤如下[2]。深度伪造数字媒体的输入。预处理包括人脸检测和增强。处理帧的特征提取。分类/检测。输出图像的真实性。一个典型的基于DL的深度伪造检测器由3个主要组件组成,以执行上述任务。预处理模块。特征提取模块。评估器模块(深度学习分类器模型)。接下来详细解释主要步骤:数据预处理、特征提取和检测/分类过程。数据预处理在数据收集阶段之后,应在深度伪造检测的训练和测试步骤之前对数据进行预处理。数据预处理是使用可用的库自动完成的,例如OpenCVpython、MTCNN和YOLO等。数据增强在提高训练deepfake检测器的性能方面也起着至关重要的作用。可以应用诸如重新缩放(拉伸)、剪切映射、缩放增强、旋转、亮度变化和水平/垂直翻转等增强技术来增加数据集的泛化[3]。数据预处理的第一步是从视频剪辑中提取单个帧。提取帧后,需要从提取的视频帧中检测人脸。由于面部区域通常是异常的,因此仅选择面部区域有助于特征提取模型仅关注感兴趣区域(ROI),从而节省全帧扫描的计算成本。一旦检测到面部区域,它们就会从框架的其余背景中裁剪出来,并遵循一系列步骤,使它们可用于模型训练和测试。裁剪面部区域的另一个原因是使模型的所有输入图像大小相同。在上一步特征提取中预处理的帧将被发送到特征提取器。大多数特征提取器都基于卷积神经网络(CNN)。最近的一些研究证明了胶囊网络在特征提取过程中的有效性和效率,这是一个新趋势。特征提取器提取预处理视频帧上可用的空间特征。特征提取可以提取视觉特征、局部特征/面部标志,如眼睛、鼻子、嘴巴位置、嘴型动态、眨眼等生物特征。然后将提取的特征向量发送到分类器网络以输出决策。分类用于分类的深度学习模型通常被称为deepfake检测器的主干。顾名思义,分类网络负责deepfake检测管道中最重要的任务:即分类并确定输入视频是否为deepfake的概率。大多数分类器都是二元分类器,其中deepfakes输出(0)和原始帧输出(1)。分类器是另一个卷积层(CNN)或类似的深度学习架构,如LSTM或ViT。分类模型的实际能力因所使用的DNN而异。例如,在特征提取器模块中提取的眨眼特征可以被分类模块中的LSTM模块用来确定帧的眨眼模式的时间不一致性,并据此判断输入是否为deepfake[3]。在大多数情况下,deepfake检测器的最后一层是全连接层。由于卷积层的输出代表数据的高级特征,因此这些输出被展平并连接到单个输出层以产生最终决策。总结在过去的几年里,deepfakes的创建和检测都发生了显着变化。与非深度学习方法相比,由于结果的准确性,使用深度学习技术进行deepfake检测的相关研究也取得了长足的进步。CNN、RNN、ViT和胶囊网络等深度神经网络架构被广泛用于deepfake检测器的实现。一个常见的deepfake检测管道由数据预处理模块、基于CNN的特征提取器和分类模块组成。此外,deepfake检测对deepfake生成器在deepfakes上留下的痕迹有很强的依赖性。由于当前基于GAN的deepfake生成器能够以最小的不一致性合成更逼真的deepfake,因此必须开发新方法来优化deepfake检测。基于深度集成学习技术的Deepfake检测方法可以被认为是一种现代和综合的打击deepfakes的方法[4]。尽管如此,有效和高效的深度伪造检测器仍然存在差距。