DeepFake自问世以来就被列为潜在的“坏AI”。无论是著名的“加朵变头色情”,还是各种利用DeepFake变声的银行转账骗局,关于DeepFake的新闻似乎都离不开负面背景。然而,麻省理工学院的最新研究表明,伪造的文字信息的破坏力远高于伪造的图片或视频。这与传播领域的旧观点相反,即当相同版本的内容以视频而非文本形式呈现时,人们更容易被假新闻欺骗。Deepfakes仍然太“年轻”超逼真视觉效果技术的最新进展引发了人们的担忧,即政治演讲的deepfake视频很快将在视觉上与真实视频无法区分。然而,关于视听信息如何影响人们对虚假信息的敏感性的实证研究很少。最近,麻省理工学院媒体实验室的科学家们向5727人展示了16段真实的政治演讲片段和16段被DeepFake篡改过的演讲片段。声音片段以文本、视频和音频的排列形式呈现,例如带字幕的视频等。论文链接:https://arxiv.org/pdf/2202.12883.pdf受试者被告知一半的内容是假的,并被问及他们认为哪些片段是假的。当仅显示文本时,受访者在识别谎言方面仅比随机猜测略好(57%的准确率)。当给定带字幕的视频时,受访者猜得更准确(66%),同时显示视频和音频时更成功(82%)。也就是说,与阅读文字记录相比,受试者在观看视频或收听音频时能够更好地识别事件是否真的发生。这些发现还表明,普通人有时(但并非总是)能够识别出由deepfake同步产生的视觉扭曲。根据笔者的解释,主体判断的依据更多取决于内容的表达方式而非内容本身。被试对有音轨视频的判断率高于无声视频,无声视频的判断率高于文本。说话人的各种小表情、动作、声调等也有细微的差别。如果旁观者无法观察到这些细微的差别,那么判断什么是真实语音,什么是人工智能从书面文字生成的准确率,只能达到掷硬币水平的一半和一半。该论文的作者说:“政治演讲的虚假视频比伪造的文字记录更容易识别,这一发现强调了提醒人们经常被遗忘的格言‘眼见为实’的必要性。”然而,这项研究有很大的局限性:研究人员生成的DeepFake材料并不是超级真实的。研究人员自己警告说:“真正危险的假视频可能不是普通算法随机生成的DeepFake视频,而是经过提炼并极具说服力的单一视频。”总统的DeepFake数据集中的32个视频目前正在游戏中,这个警告特别相关。公众一直怀疑东欧冲突的一方会制作另一方总统宣布投降的深度伪造视频。这些担忧无可厚非,但目前流传的各种假新闻几乎没有使用DeepFake技术。据《今日美国》事实核查组成员介绍,在动荡时期,造假者会搜索、剪下旧的视听资料,以时事新闻为名发布。这种作弊难度远低于DeepFake。例如,一段TikTok视频声称显示了乌克兰最近发生的爆炸,但实际来源是在1月份。正如这项研究所揭示的那样,深度造假可能会影响公共事件的结果,但彻头彻尾的谎言和简单的剪辑和编辑是传播虚假信息的更突出形式。当然,这并不意味着DeepFakes不危险。只是更原始的欺骗手段可能更具威胁性。补充实验表明,与语音和模态条件下准确性的高可变性相比,受试者确定性的变化较小。在书面成绩单中,受试者的平均置信度为81%。受试者对通过视频和音频呈现的演讲的信心分别提高了6%和9%。如果向受试者提供所有内容,则置信度可提高12%。也就是说,当被试通过视频和音频接收到更多信息时,被试的加权准确度、置信度、捏造语音辨别力和真实语音辨别力均平均提高。然而,研究人员发现字幕似乎对结果没有显着影响。受试者的平均反应时间为24秒,比视频的平均长度长3秒。无声、带字幕视频的中位反应时间为31秒,略长于所有其他模态条件。在所有7种模态条件下,受试者对虚假内容的反应时间都比对真实内容的反应时间短。其中,文字、视频和音频分别为3.8秒、2.5秒和3.7秒。此外,研究人员发现,相对于所有其他模态条件,受试者在识别成绩单的真实性方面有更大的偏见。下图a显示,与无声字幕视频相比,受试者在转录本上的准确度大多较低。同样,c表明受试者对带音频的视频的准确性始终高于带字幕的视频。相比之下,b显示了受试者在有和没有字幕的情况下表现的异质性。受试者对32种演讲中每一种的转录本、无声视频和音频视频的判断准确性无声视频更准确;在判断无声视频时比文字记录更准确。同时,研究人员发现,受试者更多地依赖说话者的语言风格、微表情和动作等视听线索,而不是内容本身。这种评估虚假和非虚假言论难度的不对称加剧了“说谎者的红利”,即一条消息被伪造的普遍可能性,导致公众质疑所有消息都是假的,使说谎者能够避免对真实负责负面消息。然而,研究人员发现,当演讲与政客固有的公众形象不符时,参与者对视觉线索的依赖就会减少。说话者所说的与受试者对说话者的期望相符的程度就是研究人员所说的“期望违背启发式”。此外,研究人员发现,反思性推理会影响受试者对视觉信息的依赖程度:受试者“认知反射测试”的低分与对视觉线索的依赖不足以及同时对内容的过度依赖呈正相关。用大白话来说,越是愚蠢无知的人,越容易简单地相信政客讲话的内容,而不去观察政客讲话时的表情和动作。麻省理工学院的研究人员训练了一系列神经网络,从100,000个DeepFake视频和公开的Kaggle竞赛中的19,154个视频中检测DeepFake。根据机器学习模型的表现,研究人员筛选了3000个最容易被误判的视频。这些视频不仅机器学习模型难以区分,很多人也难以辨别真假。研究人员认为,更多地接触由DeepFake编辑的视频可以提高人们的判断力。于是建立了前面提到的“DetectFakes”网站,公开展示了数以千计的高质量DeepFake和真实视频。虽然不能仅靠一条线索来辨别哪个是假的,但可以注意以下8点。注意面部:DeepFake几乎都是面部修饰。注意脸颊和额头:皮肤是否显得过于光滑或皱纹?皮肤会以与头发和眼睛类似的方式老化吗?Deepfakes在某些方面往往不连贯。注意眼睛和眉毛:阴影出现在应该出现的地方吗?DeepFake通常无法重现真实的物理现象。注意眼镜:是否有眩光或太多?眩光的角度会随着你的移动而改变吗?DeepFake再次显示出物理学上的弱点。注意面部毛发:它看起来像真的吗?DeepFake可能会添加或去除鬓角或胡须,但通常会有一种违和感。注意脸上的痣:它们看起来是真的吗?注意眨眼:是正常还是太多?注意嘴唇的大小和颜色:它与人脸的其他部分相匹配吗?
