今年早些时候,搜索巨头百度推出了一个名为DeepVoice的新人工智能系统。语音转换(TTS)。第一个版本的DeepVoice可以产生更短的句子,如果你不仔细听,还以为是真人在说话。该系统还可以一次学习一种声音,几个小时后就能掌握。而今年5月推出的DeepVoice2,可以在一个小时内模仿一种口音,单个系统可以学习数百种不同的口音。现在,百度推出了DeepVoice的“最终版”,号称每半小时可以完成10000条语音的数据学习。这种高效生成各种声音的能力为许多用例打开了大门。例如,在有声读物或视频游戏中,每个角色都可以拥有自己独特的声音,以获得更强大的用户体验。但与真人配音相比,百度DeepVoice制作的口音有明显的合成感。对此,百度方面表示,这不是他们的目标:“如果只生成一两个口音,我们的系统已经证明可以合成出相当自然、接近人类的口音,并且可以很方便地使用作为数字助理。”DeepVoice3架构图百度要做的是做一个可以把握多种口音或字符之间细微差别的系统:这只是第一个工作,展示了可扩展性的可能性。我们的系统成功地将训练扩展到以前发布的TTS模型中未达到的规模。我们相信,随着大型高质量数据集的使用,以及额外的机器学习工程培训,其质量在不久的将来会得到很大的提高。需要注意的是,百度并不是唯一一家致力于计算机语音合成的搜索巨头。谷歌的DeepMind部门一直致力于一个名为WaveNet的类似项目。在其最新版本中,WaveNet能够更好地识别口音,甚至可以像真人一样生成“嘴唇”。现在,它即将推出英文版和日文版的GoogleAssistant。[编译自:TheVerge,来源:百度研究院]
