Facebook开源了VoiceLoop，它在开放场景中根据语音和文本合成新的声音

时间：2023-03-16 18:24:59 科技观察

Facebook研究人员最近在他们今年7月发表的一篇论文（VoiceSynthesisforin-the-WildSpeakersviaaPhonologicalLoop）中开源了语音合成方法。在论文中，他们提出了一种新的文本转语音神经网络方法，可以将从开放场景中采样的声音中提取的文本转换为语音。与其他文本到语音系统不同，该方法可以处理从公开演讲中提取的无约束样本，并且网络架构比解决相同问题的现有架构更简单。它基于一个新的移位缓冲区工作记忆，也用于评估注意力、计算输出音频和自我更新。输入语句使用上下文无关的查找表进行编码，每个条目都包含一个字符或音素。同样，一个说话人可以用一个短向量表示，该向量也适用于新说话人。并且在生成音频之前，首先要准备好缓冲区，使生成的语音具有可变性。上图是实验例子中生成的attentionmap，X轴是输出时间（acousticsamples），Y轴是输入（text/phoneme）。代码地址：https://github.com/facebookresearch/loop论文地址：https://arxiv.org/abs/1707.06588

上一篇：从.net转过来，说说最近的一些面试，薪水和想法

下一篇：数据安全趋势：人们需要了解的七大统计数据

Facebook开源了VoiceLoop，它在开放场景中根据语音和文本合成新的声音相关文章