当前位置: 首页 > 科技观察

语音合成模型Uni-TTS升级:多语言语音,高保真高效

时间:2023-03-22 00:32:27 科技观察

日前,微软发布了最新的Azure神经网络语音合成技术Uni-TTSv3多语言语音合成模型。与上一代语音合成模型相比,Uni-TTSv3语音合成具有更高的保真度、更快的速度、更短的训练时间、更经济高效。微软用Uni-TTSv3升级了美式合成女声Jenny。全新升级的JennyMultilingualNeural具有跨语言能力,支持14个国家和地区的语言。此外,基于Uni-TTSv3的深度神经网络定制语音服务还扩展了跨语言定制服务功能。客户只需提供一种语言的录音数据作为语料库,即可训练定制模型同时说多种语言。  JennyMultilingualNeuralaudioexample  随着技术的不断迭代,微软的智能语音性能已经媲美真人,支持110多个国家和地区的语言,提供270多个神经网络的声音。为了进一步拓展语音使用场景,满足各行业客户的多样化需求,微软智能语音也在不断探索新的服务和能力:  l跨语言语音技术要求:只能同时生成一种语音覆盖全球用户多语言应用需求,如在虚拟游戏中创建具有多语言能力的NPC(Non-PlayerCharacter),在智能客服等场景中使用多语言与用户对话,提升用户体验。  l稳定高效的平台需求:使语音模型更加健壮(robust,systemstability),即使在定制化的服务场景下,也能稳定高效的处理不同类型的训练数据,不受外界环境的影响。  新一代神经网络语音合成技术Uni-TTSv3是为解决上述需求而提出的,并改进了以下功能:快速高质量的语音合成模型)构建,直接使用真实语音进行训练,引入更多有关语音变化的信息,例如语速、语调和口音模式,以提高合成语音的质量。业界公认的专业评价语音自然度的MOS(MeanOpinionScore)评测结果显示,智能合成女声JennyMultilingualNeural的语音平均分在4.2分以上(总分5分),且语音保真度高。Uni-TTSv3模型结构图  MultilingualUniversal  Uni-TTSv3是一个强大的多语言语音模型,在多语言和多说话者数据集上训练。Uni-TTSv3通过对50多个不同地区、不同口音的说话人在不同场景下录制的超过3000小时的语音数据进行训练,构建多语言通用基础语音模型,确保AI语音在语速、语调、口音上的准确模式等。相同情况下的多语种口译。  更短的训练时间  Uni-TTSv3赋能Azure语音合成平台和自定义神经语音,支持多语言语音。使用Uni-TTSv3升级自定义神经语音训练管道,以支持客户以更短的训练时间创建高质量的语音模型。与上一代语音合成模型相比,Uni-TTSv3调优过程简单,尤其是在声学训练部分,训练时间显着减少约50%,性价比更高,效率更高。Uni-TTSv3模型训练示意图  想马上尝试体验Uni-TTSv3多语言语音合成模型吗?想要使用MicrosoftAzure音频内容制作平台制作高质量的合成语音吗?请点击此处立即试用!