当前位置: 首页 > 科技观察

微软 AI 新技术:让你的头像照片动起来,并有感情地“讲话”

时间:2023-03-15 20:47:32 科技观察

微软AI新技术:让你的头像动起来,用情感“说话”两年前,卡内基梅隆大学的研究人员发表了一篇论文,描述了一种将面部动作从一个人转移到另一个人的方法。就在今年6月,三星的应用科学家推出了一种端到端模型,可以在人头特写中制作眉毛、嘴巴、睫毛和脸颊的动画。仅仅几周后,Udacity展示了一个可以从音频旁白自动生成单口相声视频的系统。基于之前的研究和工作,微软研究院团队本周提出了一项技术。他们声称这项技术可以提高语音化身动画的真实感。以前,头部动画生成需要清晰、相对无噪音的中性音调。现在,研究人员表示,他们的技术可以将音频序列分解为语音内容和背景噪音等因素,从而允许使用嘈杂和“情绪化”的数据样本。雷锋注:图片来自微软。众所周知,声音是不同的。不同的人在不同的语境中使用同一个词,时长、振动幅度、语调等都不同。除了语音内容,语音本身还携带着丰富的信息,可以揭示人们的情绪状态、身份(性别、年龄、种族)和个性。事实上,微软研究人员提出的技术是基于学习潜在显示变量自编码器(雷锋网(公众号:雷锋网)出版社:variationalautoencode,VAE)。VAE可以将输入音频分解为不同的表示形式,包括编码内容、表情和其他变化因素。基于输入音频,从分布中采样一些内容表示序列,并将该序列与输入人脸图像一起处理。馈送到视频生成器以制作面部动画。为了训练和测试VAE,研究人员选取了三个数据集,分别如下:GRID:这是一个视听语料库,每个语料库包含34个说话人的1000条录音;CREMA-D:包含7442个视频片段,来自91个不同种族的演员;LRS3:包含来自TED视频的100,000多个口语句子的数据库。研究人员将来自GRID和CREMA-D的数据输入模型,要求它识别语音和情绪表征,然后使用一对定量指标——峰值信噪比(PSNR)和结构相似性指数(SSIM)——评估视频生成的质量。在性能方面,研究团队表示,他们的方法在所有指标上都与其他清晰、中性的口语方法相当。他们指出,这种方法不仅在整个情感范围内始终如一地发挥作用,而且还与当前所有最先进的说话化身方法兼容。值得一提的是,其变体特定的可学习先验也可以扩展到其他语音因素,例如身份和性别,这可以作为未来工作的一部分进行探索。通过测试噪声和情绪音频样本,研究人员验证了他们的模型,表明该方法在存在音频变化的情况下优于最先进的方法。注:本文编译自KYLEWIGGERS在venturebeat上发表的一篇文章。