自从deepfake出现以来,引起了很大的争议,同时也带来了很多伦理和社会问题。近期,Facebook、微软等巨头开始打击deepfake滥用行为,斥资超过1000万美元举办deepfake检测挑战赛。谷歌也不甘落后。近日,这家科技巨头宣布开源大型deepfake视频数据集,以支持社区对deepfake检测的研究。深度学习使许多几年前还无法想象的技术成为可能。一个例子是现代生成模型,它能够合成超逼真的图像、语音、音乐甚至视频。这些模型已用于多种用途,包括直接从文本生成类人语音、生成用于医学成像研究的训练数据等等。与其他革命性技术一样,生成模型也带来了新的挑战,例如“deepfake”。在2017年底deepfakes登场后,此后出现了许多开源的deepfake生成方法,导致合成视频剪辑出现爆炸式增长。虽然其中许多视频都是为了搞笑,但也有一些深度造假会对个人和社会产生不利影响。Google认真对待这些问题。去年,谷歌发布了《AI指南》,承诺探索AI最佳实践,以减轻AI滥用和AI危害。去年1月,谷歌发布了一个合成语音数据集来支持ASVspoof2019挑战,以帮助开发高性能的假音频检测器。作为大赛的数据库,该数据集已被150多家研究机构和行业组织下载,现已免费向公众开放。最近,GoogleAI与Jigsaw(前身为GoogleIdeas)合作,发布了一个大规模的视觉deepfake数据集,该数据集已被纳入由慕尼黑工业大学和弗雷德里克二世大学创建的FaceForensics基准测试(由谷歌共同赞助)那不勒斯。FaceForensics基准数据集地址:https://github.com/ondyari/FaceForensics/谷歌此次发布的deepfake数据集中的视频示例。在生成过程中,随机选择一对演员,深度神经网络对他们进行换脸操作。为了创建数据集,谷歌在过去一年中与几位付费和无偿演员合作制作了数百个视频。谷歌随后使用公开可用的deepfake生成方法基于这些视频创建了数千个deepfake视频。这些真假视频共同构成了谷歌创建的数据集,用于支持深度伪造检测的研究。作为FaceForensics基准测试的一部分,该数据集现在是开源的,可供研究社区免费使用,以开发合成视频检测方法。演员在各种场景中拍摄。上图为真实演员,下图为相应的deepfake示例,两者的差异程度取决于用于创建deepfake的其他演员。Deepfake技术发展迅速,谷歌表示将继续增加这个数据集中的数据,并继续在该领域展开合作。该数据集的发布是谷歌大力支持研究界减轻滥用合成媒体的潜在危害的重要一步。
