本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。自从有了deepfake,我再也不能相信“眼见为实”。如果要把朱茵的脸换成杨幂,把海王的脸换成徐锦江,大家可以一笑了之。△图片来源:微博网友@慢三与偏见但如果一个公众人物deepfake了一些不该说、不该做的事情,就会让人深思。为了防止世界被毁灭,维护世界和平,(狗头)现在,阿里安全图灵实验室也加入了“围剿”deepfake队列:打造deepfake检测算法S-MIL,多人直播视频,只要其中一张换了脸,就可以准确识别。基于多实例学习的deepfake检测方法,一尺高,路在高处。deepfake与deepfake检测技术的较量已经开始。然而,现有的deepfake检测方法主要分为两类:帧级检测和视频级检测。帧级方法需要高成本的帧级注释。在转换为视频级任务时,需要设计巧妙的融合方法,以更好地将帧级预测转换为视频级预测。简单的平均或取最大值很容易导致漏检或误检。然而,视频级检测方法,如LSTM,在检测deepfake视频时过于注重时序建模,限制了deepfake视频的检测效果。△部分deepfake攻击,四个人只换了一个。为了解决这些问题,阿里安全图灵实验室的研究人员提出了基于多实例学习的Sharp-MIL(S-MIL)方法,只需要视频级的Marking,就可以检测出deepfake作品。其核心思想是,只要视频中的一张脸被篡改过,该视频就被定义为deepfake视频。这与多实例学习的思想是一致的。在多实例学习中,一个包由多个实例组成,只要其中一个实例是正类,那么这个包就是正类,否则就是负类。S-MIL将人脸和输入视频分别检测为多实例学习中的实例和数据包。而且,通过将多个实例的聚合从输出层推进到特征层,一方面聚合更加灵活,另一方面利用伪造检测的目标函数直接指导实例的学习级深度表示,以简化传统的多实例学习。面临梯度消失的问题。具体来说,该算法主要由三个关键部分组成。首先,对输入视频中的采样帧进行人脸检测,将提取的人脸输入CNN以获取特征作为实例。在实例设计方面,与传统多实例学习的设置一样,实例是相互独立的。但是,由于deepfake是在单帧被篡改的,所以同一张脸在相邻帧上会有一些抖动,就像这样:为此,研究人员设计了一个时空实例来描述帧间的一致性,以辅助deepfake检测。具体地,文本分类中常用的一维卷积用于使用不同大小的内核从多个角度对输入人脸序列进行编码,以获得用于最终检测的时空实例。也就是说,第二步是提取编码后的时空实例,形成具有不同时间核大小的时空包。这些数据包一起用于表示视频。最后对这些包进行S-MIL,计算出所有包的假分数,从而得到整个视频的最终假分数,从而判断视频是否为deepfake。S-MIL定义如下:其中,pi和p(i)^(j)分别是包中第i个bag和第j个实例的正概率;M是包中的实例数;w是网络参数;h(i)^(j)是包i中实例j对应的特征。由于现有帧标记数据集中同一视频中真假混合人脸样本较少,研究人员还构建了部分攻击数据集FFPMS。FFPMS总共包含14000帧,包括4种类型的假视频(DF、F2F、FS、NT)和原始视频,同时具有帧级标签和视频级标签。检测效果达到SOTA研究人员在DFDC、Celeb和FFPMS数据集上评估了S-MIL。实验结果表明,假人脸的权重较高,说明该方法在只需要视频级标签的情况下,可以很好地定位假人脸,具有一定的可解释性;而且,该方法可以达到state-of-the-art的效果。
