当前位置: 首页 > 科技观察

为了打造属于自己的数字人,FACEGOOD开源了语音驱动的表情技术

时间:2023-03-12 07:28:02 科技观察

目前,在元宇宙的热潮下,AI数字人也开始涉足娱乐、服务、教育、营销等多个领域等。市面上出现的AI数字人包括功能性AI数字人,如虚拟助理、虚拟导游、虚拟客服等;陪伴AI数字人,如虚拟伴侣、虚拟家庭成员等;社交AI数字人,如虚拟主播、虚拟偶像、虚拟老师、虚拟医生、虚拟导购等上海浦东发展银行首位银行业数字员工“小浦”与虎牙AI数字人万鱼搜狐新闻客户端联合推出“第一名人”搜狗推出的“AI数字人”主播。为了实现虚拟数字人的多领域渗透,让更多的AI数字人场景落地,FACEGOOD决定正式开源语音驱动唇动算法技术。这就是AI虚拟数字人的核心算法。降低人工智能数字人的开发门槛。项目地址:https://github.com/FACEGOOD/Audio2Face项目背景2019年,第十届中国国际新媒体短片节组委会与FACEGOOD联合发布了由陆川执导的AI数字人。陆川AI数字人像观众可以与AI数字陆川面对面互动,为观众带来实时、真实的交流互动体验,打破虚拟空间与现实空间的次元壁垒。为了达到实时交互的效果,FACEGOOD开发了一套数字人实时语音交互系统,实现了语音到表情动画的实时转换。今天,FACEGOOD选择开源全套语音驱动表情的技术代码,免费提供给数字人开发者。技术解读该技术可以将语音实时转换为富有表现力的blendshape动画。之所以会这样,是因为在目前的行业中,使用BS来驱动数字图像的动画表现仍然是主流,方便动画师对最终的动画输出进行最艺术化的调整。FACEGOOD根据这些实际生产需要,对输入输出数据进行了相应的调整。声音数据对应的label不再是模型动画的点云数据,而是模型动画的blendshapeweight。最终的使用流程如下图1所示:上述流程中,FACEGOOD主要完成Audio2Face部分,ASR和TTS则由SmartRobot完成。如果你想用自己的语音,或者第三方语音,ASR和TTS可以自己替换。当然FACEGOODAudio2face部分也可以根据自己的喜好重新训练。例如,如果你想使用自己的声音或其他类型的声音,或者使用不同的模型绑定作为驱动数据,你可以按照下面提到的过程进行。拥有独家动画驱动算法模型训练。那么Audio2Face这一步的框架是什么?以及如何制作自己的训练数据?具体如下图2所示:常规的神经网络模型训练大致可以分为三个阶段:数据采集与生产、数据预处理和数据模型训练。第一阶段是数据收集和生产。这里主要有两种数据,分别是声音数据和声音对应的动画数据。声音数据主要是记录汉字的读音,以及一些特殊的爆破音,尽可能多的包含汉语发音的文字。动画数据是将录制好的声音数据导入Maya后,根据自身绑定制作出符合模型五官的相应发音对应的动画;第二阶段主要通过LPC对声音数据进行处理,将声音数据划分为创建动画对应的帧数据,导出maya动画帧数据。第三阶段是将处理后的数据作为神经网络的输入,然后进行训练,直到损失函数收敛。