近日,奇富科技机器人团队论文《Eden-TTS:一种简单高效的非自回归「端到端可微分」神经网络的语音合成架构》(Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration- alignment Learning)被全球语音与声学顶级会议INTERSPEECH评选获得。
此次自研成果的入选代表了国际学术界对奇富科技在语音信号领域研究实力的高度认可。
INTERSPEECH是由国际语音通信协会(ISCA)创办的语音信号处理领域的顶级旗舰国际会议。
它是全球规模最大的综合性语音信号处理盛会,享有国际声誉并具有广泛的学术影响力。
历届INTERSPEECH会议均引起了世界各国言语语言界人士的广泛关注。
TTS技术目前主要应用于电话营销机器人、视频采访机器人、智能客服等人机交互场景和语音合成场景。
它可以快速将文本内容转换为高质量、流畅、自然的语音,从而实现更智能、更智能的服务。
有人性化的人机交互。
文本音素和音频帧之间的对齐学习是非自向 TTS 模型最关键的技术之一。
现有的非自回归语音合成模型大多需要引入外部对齐信息作为学习目标。
在实际应用场景中,文本和语音的对齐很难甚至不可能准确获得,这极大地限制了此类方法的应用。
此外,还提出了一些不需要外部对齐的方法。
然而,这些方法大多不是端到端的可微神经网络模型,存在构建困难、训练过程复杂、训练效率低等问题。
奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案,并提出了一种端到端可微非自回归神经网络语音合成模型架构。
基于文本音素时长与对齐的密切关系,论文提出了一种简单高效的对齐学习方法:首先利用新的能量调制注意力机制获得引导对齐,然后利用引导对齐计算文本音素的时长信息。
音素,最后通过音素的持续时间信息构建单调对齐。
该方法不需要外部对准信息,也不需要引入额外的对准损失函数。
在提高业务效率方面,奇富科技的研究成果具有易于训练和使用、音质精湛、合成速度快等优点。
这种端到端的可微分方法使得每个模块都可以轻松地替换为各种类型的神经网络模块,从而具有良好的可扩展性和稳定性。
与主流自回归模型相比,推理速度提升10倍以上,可以满足实时语音合成的需求。
这种方法也使得合成的语音听起来更好、更生动、更像真人,极大地提高了语音交互的听觉体验。
根据多人MOS评测,该方法的MOS评分达到4.32分(满分5分)。
合成语音的自然流畅度接近当前最优自回归模型,并且明显优于同类型非自回归模型。
模型。
此外,与同类方法相比,该方法可以节省50%以上的训练时间,显着提高模型训练效率。
奇富科技在与其业务保持同步的对话机器人领域具有先发优势。
在语音技术上,一直坚持投入和自研。
就在两个月前,奇富科技的另一篇音频论文《基于多粒度 Transformer 的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被第48届IEEE声学、语音和信号处理国际会议(ICASSP)接收。
“我们很高兴在理解用户和优化表达方面取得了关键成果。
随着奇富GPT对公司业务层的重组,我们极大地提高了用户理解文本的能力,从语音到文本,再从文本到语音,更好的识别是为了更好的表达和输出,我们将持续投入,利用前沿技术重塑用户体验。
”奇富科技首席算法科学家费浩军表示。