当前位置: 首页 > 科技观察

为什么我们仍然认为AI换脸是“假的”?

时间:2023-03-14 16:06:49 科技观察

《星球大战》的衍生剧《波巴·费特之书》(波巴费特之书)有一集在粉丝中引发了励志讨论。这是因为MarkHamill的年轻版本是由工业光魔公司聘请的deepfakes从业者Shamook创建的。虽然AI换脸方式在2020年CGI技术的基础上有了长足的进步,总体上达到了目前AI换脸的最佳视觉标准,但也有粉丝认为《少年卢克天行者》的新造型在《星球大战》和之前的相比,还是有些不足的。比如,最明显的问题就是在以天行者为主角的长镜头中,人物缺乏表现力和细腻真实的情感。这是典型的用AI换脸的效果,比CGI特效更明显。TheVerge网站认为,波巴·费特的AI换脸结果就像是“1983年马克·哈米尔那张神秘面无表情的冰块脸”。但无论工业光魔背后使用的是什么技术,AI换脸目前都存在一个根本问题,那就是难以传达细腻的情感。这个问题很难解决,无论是改变架构,还是改进原有的训练材料。然而,病毒式deepfakers方法通常在选择目标视频时更加谨慎,可以规避这个问题。FaceAlignment的局限性最常用的两个AI换脸开源代码库是DeepFaceLab(DFL)和FaceSwap,它们都诞生于2017年。尽管能力有限,但DFL在视觉效果(VFX)上占据了巨大的领先优势行业。这些代码的初始任务是从原始材料(即视频帧或静止图像)中提取面部标志。RunningFaceLocalizationNetwork(FAN)DFL和FaceSwap都使用FacialLocalizationNetwork(FAN),可以为提取的人脸创建2D和3D特征点(如上图所示)。3D特征点可以广泛感知面部的方向,包括侧面轮廓和更锐利的角度。这里有一个非常基本的评估像素的标准:RoughcriteriaforfacialcontoursfromFaceSwap这个标准考虑了面部最基本的线条:例如,眼睛和下巴可以扩张和收缩,以及嘴巴的基本形状(例如微笑、皱眉等)都可以跟踪和调整。从相机的角度来看,脸部可以向任何方向旋转约200度。而这些粗略的像素边界位置,是整个AI换脸过程中唯一准确的人脸指引。训练时,只是与相应的像素点或周围的像素点进行比较,然后选择相应的处理方法。DeepFaceLab中的trainingexample没有人脸分区域的拓扑结构(包括脸颊凹凸不平,年龄细节,酒窝信息等),所以想尝试匹配原人(要换的脸)而目标人物(你要复制的脸)不太可能在脸上保持“精致”的五官)。在有限的数据下训练AI换脸模型需要获取两个人的匹配数据,这并不容易。需要匹配的角度越具体,你就越有可能在角色A和角色B的(特定角度)匹配上妥协:保持相同的表情。面部数据不完全匹配。如上图所示,两个角色的面部结构非常相似,但仍不完全匹配,是数据集中匹配度最高的结果。不过上图还是有明显的区别:角度、镜头、灯光都没有完全匹配;人A(左)没有像人B(右)那样完全闭上眼睛;人A的图像质量和压缩率较差;B看起来比A更开心。尽管有以上差异,我们也只能依靠这些已有的材料来训练AI换脸模型了。因为A完全匹配B的情况很少,所以训练集中也很少有相似的匹配。因此,在训练中经常会出现欠拟合和过拟合。欠拟合:如果某些特殊角度的匹配数据较少(即数据集中的数据量比较大,但针对该角度的匹配图像对较少),则不会与更“简单通用”的比较"匹配数据。获得有效的培训。因此,AI换脸模型无法很好地表达这种特殊的角度或表情。过拟合:由于缺乏足够的匹配数据,AI换脸模型有时会多次复制数据集中的匹配数据,以便在最终模型中获得更好的结果。但这可能会导致过度拟合,并且使用该模型制作的AI换脸视频很可能会复制两张照片之间的不匹配,例如眼睛的闭合程度。如下图所示,使用DeepFaceLab开源方法将弗拉基米尔·普京(VladimirPutin)训练成凯文·史派西(KevinSpacey),进行了16万次迭代训练。看到上图之后,大部分人可能会认为普京在这些换脸测试中的成绩比史派西更有空间感。下面介绍一下在线表情识别程序是如何处理表情不匹配问题的:根据这个比DFL和Faceswap更详细的面部特征分析,我们发现史派西的换脸结果很少有普京的愤怒、厌恶和蔑视。表达。这些不同的表情类别是纠缠包的一部分,因为常用的AI换脸应用程序不具备匹配表情或情绪的能力。对我们来说,表达方式差异很大。我们在很小的时候就学会了阅读面部表情,将其作为一项基本的生存技能,并在成年后继续依靠这种技能进行社会融合、进步和交配,并作为一种持续的威胁评估方法。所以我们对微表情非常敏感,所以AI换脸技术最终还是需要对微表情进行处理。事与愿违虽然AI换脸技术革命带来了在现代影视中插入“经典”电影明星的可能,但AI无法以更兼容的清晰度和质量捕捉以前的经典,这对用户来说并不容易。也很重要。假设需要一个经过训练的AI换脸模型来重现波巴·费特中哈米尔的形象,那么就需要使用哈米尔30岁出头左右制作《绝地归来》(绝地归来)的片段作为训练数据.这部电影是用Eastman彩色负片250T5293/7293胶片拍摄的。当时被认为较好的中细粒度250ASA乳剂在80年代后期在清晰度、色彩范围和保真度方面得到认可。超过。当时的经典,连主角的特写镜头都没有,画面的颗粒感问题就显得尤为重要。《绝地归来》(1983)中哈米尔的一些镜头。此外,我们通常通过光学打印机将Hamill拍摄的VFX镜头打印出来,为影片添加颗粒感。卢卡斯影业还通过在档案中保存原始底片和数小时未使用的原始素材来解决颗粒感问题。同时,为了丰富和多样化AI换脸数据集,我们通常会搜索一段时间内演员的所有作品。而哈米尔在1977年的一次车祸后变了模样,参加完《绝地归来》后几乎马上就开始了他的第二个著名配音演员生涯,导致数据资料太少,无法得到性能更好的AI换脸模型。表情范围是否有限制如果想让AI换脸模型完成演员夸张的表情,那么就需要大量采集这些不常见面部表情的原始素材。但很可能夸张的表情没有包含在适合年龄的镜头中。比如在《绝地归来》开始主线剧情的时候,哈米尔就已经基本可以控制自己的情绪了。这时候如果想用《绝地归来》的数据来训练一个哈米尔的AI换脸模型,需要一些情绪数据和限定范围内不常见的面部表情,而不是他出演的早期作品。你可能会认为,在《绝地归来》中,当天行者承受巨大压力时,他会提供更夸张有效的表达素材。但实际上这些场景中的面部表情素材转瞬即逝,而且还受到动作场景的运动模糊和快速剪辑的影响,导致素材无法得到有效利用。总结:表情的融合如果真的用AI换脸模型来完成波巴·费特中的天行者角色,那么他只能表达有限范围的表情,而不仅仅是因为缺乏原始素材。AI换脸模型在encoder-decoder训练过程中寻求一个能成功从数万张图像中提取重要特征的通用模型,并试图获得AI换脸数据集中不存在或罕见的面部角度。如果AI换脸模型不具备这种灵活性,它只能逐帧复制粘贴,不考虑时间连续性或背景信息。而且,这种技术的发展可能会牺牲表情的真实性,任何“精致”的表情都可能不是真实的。我们的脸像100个装备精良的管弦乐队一样一起演奏,而AI换脸软件至少缺少内部的弦乐。情绪表达的差异并不是所有的面部动作及其对我们的影响都是一样的,比如在罗杰·摩尔身上看似漫不经心的挑眉,在塞斯·罗根身上看起来并不十分老练。如果用AI换脸模型将玛丽莲·梦露的迷人魅力强加在一个充满“愤怒”和“不满”的角色身上(比如AubreyPlaza在第七季公园与游憩中扮演的角色),就会传达消极情绪.因此,A、B人脸数据相同的像素并不一定会对表达相同情绪的模型产生影响,但这是训练高级AI换脸开源模型的前提。我们期待的AI换脸模型,不仅可以识别表情,推断情绪,还可以表达愤怒、妩媚、无聊、疲倦等高级概念,将这些情绪和相关表情以不同的方式表达在两种身份中,而不是of只需复制嘴巴或眼睛的位置。