当前位置: 首页 > 科技观察

秒杀Deepfake!微软北大推出AI换脸工具和假脸检测工具

时间:2023-03-21 12:48:44 科技观察

人脸识别的“利矛强盾”同时发布!微软亚洲研究院与北京大学近期联合发表两篇重量级学术论文,提出FaceShifter和FaceX-Ray——前者是高保真、可感知遮挡的AI“换脸工具”,后者是用于伪造通用的用于面部图像的专用检测工具,需要的数据少得多,同时实现行业领先的性能。    最先进的人工智能和机器学习算法不仅可以生成逼真的地点和物体图像,而且还擅长将人脸换成另一个人。另一方面,研究人员也在不断开发能够检测deepfake假图像的识别工具。这场机器学习图像识别领域的“矛与盾”之战愈演愈烈。  近日,微软研究院和北京大学的研究团队同时打造了一对“矛”和“盾”。他们发表的两篇论文分别提出了FaceShifter和FaceX-Ray——前者是一种高保真、遮挡感知的换脸工具,后者是一种能够检测假人脸图像的工具。  这两种方法都在不牺牲性能的情况下实现了行业领先的结果,与当前的多种基线方法相比,并且需要的数据比以前的方法少得多,研究人员说。  1。Spear:高保真换脸工具FaceShifter  这款新工具采用双层框架结构。以往,换脸应用的主要难点在于提取人脸特征,然后将两张图像的特征和属性组合成一张图像。最近,基于GAN的工作取得了重大进展,但在合成高精度、逼真的图像结果方面仍然面临挑战。  研究人员提出了一种新的两部分架构,称为FaceShifter,可以在遮挡下实现高精度的面部交换。第一部分通过充分自适应地挖掘和融合目标属性生成高清换脸图片。使用新的属性编码器,提取多层次对象的人脸属性,并将人脸合成图像的特征和属性与新的自适应注意非规范化(AAD)层生成器相结合。  架构的第二部分主要解决人脸遮挡问题,这部分包括一个新的启发式错误确认细化网络(HEAR-Net)。训练后,图像的异常区域可以以自我监督的方式恢复,无需任何人工注释。对新人脸图像的大量实验表明,与其他方法相比,我们的模型生成的换脸图片结果不仅在感知上更逼真、更具吸引力,而且保留了更多原始图像的特征。  第一阶段的AEI-Net结构。AEI-Net由身份编码器、多级属性编码器和AAD生成器组成。AAD生成器使用建立在AAD层上的级联AADResBlk,可以在多个功能层次上整合图像特征和属性的信息。第二阶段HEAR-Net及生成效果  与FaceSwap、Nirkin、FaceForensics++、DeepFake、IPGAN等模型生成效果对比。我们的模型更好地保留了源图像的人脸形状,更忠实于目标属性(光照,图像分辨率)  与其他现有换脸模型的性能比较  二。剑盾:人脸假图检测工具FaceX-ray  典型的换脸合成方法包括三个阶段:1)检测人脸区域;2)合成想要的目标人脸3)将目标人脸融合到原始图像中。合成图像中现有的人脸检测通常面向第二阶段,并基于数据集训练有监督的每帧二元分类器。该方法可以在测试数据集上达到近乎完美的检测精度。如果在训练过程中遇到没有见过的假图像,性能会显着下降。  与现有方法不同,FaceX-Ray不需要操作或人工监督的先验知识,而是生成灰度图像,显示给定的输入图像是否可以分解为来自不同来源的两个图像。混合。研究人员声称,这种方法之所以有效,是因为大多数方法在将改变后的面部融合到现有背景图像的过程中共享一个步骤。每张图像都会有自己独特的签名,这些签名来自硬件(例如传感器和镜头)或软件(例如压缩和合成算法),并且这些签名往往在整个图像中以相似的方式出现。  FaceX-Ray不需要依赖与特定面部操作技术相关的伪影知识,支持它的算法可以在不使用任何方法生成假图像的情况下进行训练。  在一系列实验中,研究人员比较了FaceForensics++,这是一个包含1,000多个原始剪辑的大型视频语料库,使用四种最先进的面部操作方法进行了操作,另一个FaceX-Ray在训练中进行了训练数据集。他们使用四个数据集评估了FaceX-Ray的泛化能力:  上述FaceForensics++语料库的一个子集;谷歌收集了数千个视觉deepfake视频,来自deepfake检测挑战的图像;和Celeb-DF,一个包含408个真实视频和795个合成视频的语料库,减少了视觉伪影。  结果表明,FaceX-Ray可有效识别未检测到的假图像,并可靠地预测混合区域。研究人员指出,这种方法依赖于混合步骤,因此它可能不适用于完全合成的图像,这些图像可能会被对抗性示例所愚弄。尽管如此,它仍然是朝着通用面部伪造图像检测工具迈出的有希望的一步。  作者简介  这两篇文章的作者均来自微软亚洲研究院(MSRA)视觉计算团队。人们获得奖学金。下面根据网上公开的资料介绍这两篇文章的作者。  李灵芝  北京大学硕士研究生,北京交通大学工商管理学士。过去一年在MSRA的视觉计算团队担任研究实习生。研究兴趣是计算机视觉、机器学习和深度学习。对生成模型和深度检测领域特别感兴趣。  包建民  MSRA视觉计算组研究员。此前,他获得了理学学士和博士学位。2014年和2019年在中国科学技术大学获得博士学位,师从罗杰波教授和李厚强教授。研究兴趣为计算机视觉、机器学习。尤其对人脸检测、识别、合成和GAN领域感兴趣。  张婷  MSRA视觉计算组高级研究员。在2017年7月加入MSRA之前,他分别于2012年和2017年获得中国科学技术大学的学士和博士学位。2013年至2017年在MSRA实习,并于2015年获得MSRA奖学金。目前的研究兴趣集中在计算机视觉的深度学习上。  杨昊  于2017年底加入MSRA视觉计算团队。在此之前,他获得了清华大学软件学院的学士和博士学位。研究兴趣包括但不限于人脸、肖像和3D图像的理解和合成。陈东  于2015年7月加入MSRA视觉计算团队。此前,他分别于2010年和2015年在中国科学技术大学获得学士和博士学位。2010年至2015年在MSRA实习,2013年获得MSRAFellowshipAward。  文芳  MSRA视觉计算团队主要研究员。  郭柏宁  微软亚洲研究院执行副院长,负责图形图像领域的研究。郭博士拥有康奈尔大学硕士和博士学位,北京大学学士学位。他还是电气和电子工程师协会(IEEEFellow)和美国计算机协会(ACMFellow)的会员。研究兴趣包括计算机图形学、计算机可视化、自然用户界面和统计学习。在纹理映射建模、实时渲染、几何模型等领域的研究成果尤为突出。