当前位置: 首页 > 科技观察

每个人都跟我说话!MakeItTalk神奇让你和蒙娜丽莎对话

时间:2023-03-20 01:30:35 科技观察

近日,马萨诸塞大学阿姆赫斯特分校的周扬博士及其团队提出了一种具有深层结构的新方法“MakeItTalk”。给定一个音频语音信号和一个人的图像作为输入,该模型生成说话者对声音的感知的动画地图。富有表现力的动画是每个人都想要的!面部动画是许多领域的关键技术,例如制作电影、视频流、电脑游戏、虚拟化身等等。尽管取得了无数技术成就,但创建逼真的面部动画仍然是计算机图形学中的一个挑战。一是整个面部表情包含了整个面部各部分之间的相互关系。面部运动和语音之间的协调是一项艰巨的任务,因为面部动态在高维多重图像中占主导地位,而头部姿势是最重要的。重要的。二是多个说话者说话风格会不同,嘴唇的控制是一致的,不足以了解说话者的性格,也能表达出不同的性格。针对以上问题,周扬博士及其团队提出了一种具有深层结构的新方法“MakeItTalk”。这是一种具有深层架构的新方法,只需要将音频和面部图像作为输入,程序就会输出逼真的“会说话的头部动画”。接下来,我们就来看看MakeItTalk是如何让图片“说话”的。每个人都跟我说话!什么是神奇的MakeItTalk?MakeItTalk是一种新的基于深度学习的架构,可以在声音刺激下识别面部特征、下巴轮廓、头部姿势、眉毛、鼻子和嘴唇的变化。该模型基于LSTM和CNN,可以使面部表情和头部跟随说话者的音调和内容。从本质上讲,MakeItTalk将内容和说话者从输入音频信号中分离出来,并从生成的抽象表示中提取相应的动画。嘴唇和相邻面部之间的协同作用也尤为重要。说话者信息用于捕捉其他面部表情和头部动作,这是生成富有表现力的头部动画所必需的。MakeItTalk模型既可以生成逼真的人脸说话图像,也可以生成非逼真的卡通说话图像。声音+图像=“说话”?MakeItTalk是如何做到的?下图显示了生成逼真的说话头像的完整方法和路径:(1)一个音频片段和一张人脸图像可以制作一个音频协调的、说话者感知的头部动画。(2)在训练阶段,使用现成的人脸检测器对输入视频进行预处理,提取标记,从输入音频中训练基本模型,实现语音内容转场动画和标记的精确提取。(3)为了获得高精度运动,通过分离输入音频信号的内容和说话人嵌入来执行检测地标的估计。为此,利用语音转换神经网络提取语音内容,发现语音内容。(4)内容与说话者无关,捕捉嘴唇和相邻部分的常见运动,其中话语内容调节运动的特征和说话者头部运动的其余部分。(5)嘴唇的大小和形状随着眼、鼻、头的运动而张开,这取决于谁说了这个词,即说话者的身份。(6)最后,为了生成转换后的图像,MakeItTalk采用两种算法进行标记到图像的合成:构建一个图像到图像的转换网络(与pix2pix相同),直接转换自然人脸。最后,将所有图像帧和音频混合在一起生成头部动画。作者简介本项目作者毕业于上海交通大学电气工程系,获学士学位,后于佐治亚理工学院获硕士学位,现为计算机图形学研究组计算机科学博士生在马萨诸塞大学阿默斯特分校。作者主页上的头像也是程式化的。YangZhou从事计算机图形学和机器学习领域的工作。主要致力于利用深度学习技术帮助艺术家、造型师和动画师做出更好的设计。如果你也想在设计中加入一些AI基因,杨舟的论文列表绝对是个不错的选择。关于动画生成和多模态深度学习的研究很多。