当前位置: 首页 > 科技观察

会说话的头像!新框架LipSync3D,未来或实现动态口型再同步

时间:2023-03-13 23:59:57 科技观察

会说话的头像!新框架LipSync3D,未来可能实现动态口型再同步声音综合头像。该项目的目的是开发优化和资源高效的方法,用于在交互式应用程序和其他实时环境中从音频、口型同步画外音或机器翻译音频创建“会说话的头像”视频,并将其添加到头像中。论文地址:https://arxiv.org/pdf/2106.04185.pdf机器学习模型LipSync3D本过程训练的机器学习模型LipSync3D只需要一个目标人脸识别视频作为输入数据。数据准备管道将面部几何形状的提取与输入视频的照明和其他方面的评估分开,从而实现更具成本效益和针对性的训练。LipSync3D的两阶段工作流程。顶部图像是从“目标”音频生成的动态纹理3D人脸;底部图像是插入到目标视频中的生成网格。事实上,LipSync3D对该领域研究工作的最显着贡献可能是其照明归一化算法,该算法将训练和推理照明分离。将照明数据与一般几何体解耦有助于LipSync3D在具有挑战性的条件下产生更逼真的嘴唇变化。最近几年的其他方法将自己限制在“固定”照明条件下,以免暴露其在这方面的局限性。在输入数据帧的预处理过程中,系统必须识别并移除特定于捕获视频的照明条件或以其他方式干扰再现过程的镜像点。顾名思义,LipSync3D超越了对其评估的面部进行像素级分析,而是主动使用已识别的面部标志来生成CGI风格的运动网格,并通过传统的CGI管道(展开)纹理在它们周围“展开”。LipSync3D中的姿势规范化。左边是输入框和检测到的特征;中间是生成的网格评估的归一化顶点;右边是相应的纹理图集,为纹理预测提供了基本事实。来源:https://arxiv.org/pdf/2106.04185.pdf除了这种新颖的光照再现方法外,研究人员声称LipSync3D在之前的工作中提供了三项主要创新:将几何、光照、姿势和纹理分离组合成离散数据规范化空间中的流;易于训练的自回归纹理预测模型,可生成时间一致的视频组合;并通过人工评分和客观指标提高真实性。分割视频面部图像的各个方面允许更好地控制视频合成。通过分析语音的音素和其他方面,LipSync3D可以直接从音频中推断出适当的嘴唇几何形状,并将其转化为嘴巴周围相应的已知肌肉姿势。此过程使用联合预测管道,其中推断的几何形状和纹理在自动编码器设置中具有专用编码器,但与旨在强加到模型上的语音共享音频编码器:LipSync3D的运动合成还有助于增强程序CGI化身,这实际上只是与真实世界图像相同的网格和纹理信息:具有个性的3D头像,其嘴唇在实时电源扬声器视频中移动。在这种情况下,将通过个性化预训练获得最佳结果。研究人员还希望使用更逼真的头像:在GeForceGTX1080上使用TensorFlow、Python和C++进行管道中2-5分钟视频的示例训练时间为3-5小时。训练课程使用??批处理大小为128帧,超过500-1000个时期,每个时期代表一个完整的视频评估。未来:动态嘴唇再同步嘴唇与新音轨的再同步在过去几年中引起了计算机视觉研究的广泛关注,尤其是作为有争议的深度伪造技术的副产品。2017年,华盛顿大学展示了一项能够从音频中学习口型同步的研究,还制作了一段带有时任总统巴拉克奥巴马照片的视频。https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf2018年,马克斯普朗克计算机科学研究所进行了另一项研究计划,实现了身份>身份视频转换(identity>identityvideotransfer),还带来了唇型同步;2021年5月,人工智能初创公司FlawlessAI发布了其专有的口型同步技术TrueSync,该技术被媒体广泛认为是一种改进的跨语言主要电影发行配音技术。当然,deepfake开源库的持续发展也为人脸图像合成领域提供了另一个活跃的用户贡献的研究分支。