当前位置: 首页 > 科技观察

Facebook开源了VoiceLoop,它在开放场景中根据语音和文本合成新的声音

时间:2023-03-16 18:24:59 科技观察

Facebook研究人员最近在他们今年7月发表的一篇论文(VoiceSynthesisforin-the-WildSpeakersviaaPhonologicalLoop)中开源了语音合成方法。在论文中,他们提出了一种新的文本转语音神经网络方法,可以将从开放场景中采样的声音中提取的文本转换为语音。与其他文本到语音系统不同,该方法可以处理从公开演讲中提取的无约束样本,并且网络架构比解决相同问题的现有架构更简单。它基于一个新的移位缓冲区工作记忆,也用于评估注意力、计算输出音频和自我更新。输入语句使用上下文无关的查找表进行编码,每个条目都包含一个字符或音素。同样,一个说话人可以用一个短向量表示,该向量也适用于新说话人。并且在生成音频之前,首先要准备好缓冲区,使生成的语音具有可变性。上图是实验例子中生成的attentionmap,X轴是输出时间(acousticsamples),Y轴是输入(text/phoneme)。代码地址:https://github.com/facebookresearch/loop论文地址:https://arxiv.org/abs/1707.06588