让真实照片说话是什么感觉？Adobe新研究让套接字会说话

时间：2023-03-20 21:50:45 科技观察

不仅让真实的图像会说话，油画、素描、漫画等也能动起来！给定一张人脸图像和一段音频，你能做什么？AI有办法，比如让图像中的人说话！此前，机器之心报道了三星人工智能研究中心和伦敦帝国理工学院提出的全新端到端系统，仅需一张人脸照片和一段音频即可生成新的演讲或歌唱视频。最近，我们发现了一项类似的研究。马萨诸塞大学阿默斯特分校、Adobe研究院等机构提出了一种名为MakeItTalk的新方法，不仅可以让真人化身说话，还可以让卡通、油画、素描、日本漫画中的人物说话。论文链接：https://arxiv.org/pdf/2004.12992v1.pdf不信我们来看看效果吧！我们先来看看真人图片的动态效果。看起来不错，但是卡通呢？给我一个插座，我可以让他成为精子！还有油画。如果我想让图像中的主体摇头说话，或者保持冷静和端庄怎么办？答案是可以做到。动画得到的不是音画同步效果？请点击下面的视频：那么，这是怎么做到的？鉴于以前的方法倾向于学习音频和原始像素之间的直接映射以创建角色的说话动态，本研究提出的方法将输入音频信号中的内容和说话人身份信息分开：音频内容用于稳健地控制运动嘴唇和周围区域；说话人信息决定了面部表情的细节和人物头部的动作。该方法的另一个重要组成部分是预测反映说话者动态的面部标志。基于这种中间表示，该方法能够为真人的头部图像合成说话状态视频。这种方法也可以用于艺术作品、素描、2D卡通人物、动漫、涂鸦等图像。研究人员对该方法进行了定量和定性评估，结果表明该方法可以生成更高质量的说话头动画比以前的SOTA方法。图8：与SOTA方法的比较。研究贡献本研究的主要贡献如下：提出了一种新的基于深度学习的架构，可以仅基于语音信号预测面部标志，捕捉嘴唇、下巴、眉毛、鼻子和头部的姿势；基于分离的语音内容和Speakerrepresentation生成包括面部表情和头部动态的动画；针对矢量风格卡通图像和真实人脸图像，提出了一种图像合成方法。这些方法可以处理训练期间未出现的新人脸和卡通人物图像；提出了一组量化指标，并进行了用户调查以评估头部动画方法。MakeItTalk架构图2：MakeItTalk方法的概述。如上图所示，给定一段音频和一张人脸图像，MakeItTalk架构可以生成说话人头部状态的动画，并且音画同步。在训练阶段，研究人员使用现成的面部标志检测器对输入图像进行预处理，以提取面部标志。然后使用输入音频和提取的特征点直接训练使语音内容动画化的基线模型。为了达到高保真动态效果，研究人员尝试将输入音频信号的语音内容从speakerembedding中分离出来，进而实现面部特征点的预测。具体来说，该研究使用语音转换神经网络将语音内容与说话者身份信息分开。语音内容独立于说话者，只捕捉嘴唇和周围区域的运动（参见图2“语音内容动画”）。说话者的身份信息决定了说话者头部运动和其余部分的运动细节（参见图2“说话者感知动画”）。例如，无论谁说“哈！”这个词。嘴唇会张开，与说话者无关，只与说话的内容有关。嘴唇的形状和张开程度，以及鼻子、眼睛和头部的动作，都取决于说话者的身份。基于语音内容和说话者身份信息，MakeItTalk模型预测给定音频输出的一系列特征点。图3：针对不同说话人身份的特征点预测。左：给定人脸图像的静态特征点；右上：说话时头部轻微运动的人的预测特征点序列；右下：说话时头部运动较大的人的预测特征点序列。为了生成光栅图像，研究人员开发了两种地标到图像的合成算法。对于非真实图像，例如油画或矢量图形（图9），本研究使用基于Delaunay三角剖分的简单换脸方法。图4：通过面部标志和Delaunay三角剖分对卡通图像进行换脸。左：给定的卡通形象和面部特征点；中间：Delaunay三角剖分；右图：由预测特征点引导的换脸后的图像。对于现实生活中的图像（图8），图像翻译网络（类似于pix2pix）用于动态化现实生活中的面部图像和基础特征点预测（参见上面的图2“Image2ImageTranslation”）。然后组合所有图像帧和输入音频以获得最终的说话头部动画。下图6为卡通图片和真人图片的动画效果：图6：MakeItTalk生成的卡通动画和真人面部动画。该方法不仅可以合成面部表情，还可以合成不同的头部姿势。MakeItTalk的实际用途是什么？合成说话状态头部动画的应用场景有很多，比如配音。在下面的图7a中，原始视频是英文的，但配音版本是西班牙语的，所以问题是配音版本中人物的面部表情和声音不匹配。使用MakeItTalk后，可以生成与语音对应的视频帧，实现音画同步，保持原视频中的说话风格。另一个应用是目前广泛使用的视频会议。在带宽受限的视频会议中，视频帧无法高保真、高帧率地传输，我们可以利用声音信号来驱动发言者头部的动态视频。声音信号可以以比视觉图片更低的带宽存储。此外，面部表情（尤其是嘴唇运动）对于交流非常重要。下面的图7b显示了使用MakeItTalk基于纯音频和初始高质量视频帧合成的头部运动视频。图7：MakeItTalk的应用程序。第一行：用不同语言配音视频；线路2：带宽受限的视频会议。

上一篇：VR概念开始流行：但看电影正是现阶段智能眼镜用户的需求

下一篇：微信支付核心下单系统的架构是如何实现的？

让真实照片说话是什么感觉？Adobe新研究让套接字会说话相关文章