当前位置: 首页 > 科技观察

用于语音合成的深度前馈顺序记忆网络

时间:2023-03-19 20:54:29 科技观察

摘要我们提出了一种基于深度前馈顺序记忆网络的语音合成系统。该系统在达到与基于双向长短期记忆单元的语音合成系统相同的主观听感的同时,模型大小仅为后者的四分之一,合成速度是后者的四倍,这非常适合内存消耗。计算效率对最终产品环境非常敏感。研究背景语音合成系统主要分为两类,拼接合成系统和参数合成系统。其中,参数合成系统在引入神经网络作为模型后,在合成质量和自然度上都有了长足的进步。另一方面,物联网设备(如智能音箱和智能电视)的大量普及也对部署在设备上的参数合成系统的计算资源和实时率要求提出了限制。本工作引入的深度前馈顺序记忆网络可以有效降低计算量,提高合成速度,同时保持合成质量。我们使用基于双向长短期记忆(BLSTM)的统计参数语音合成系统作为基线系统。与其他现代统计参数语音合成系统类似,我们提出的基于深度前馈顺序记忆网络(DFSMN)的统计参数语音合成系统也由3个主要部分组成,语音合成器(声码器)、前端模块和后端模块,如图所示我们使用开源工具WORLD作为我们的语音合成器,用于在模型训练时从原始语音波形中提取频谱信息、基频对数、频带周期特征(BAP)和清音标记,也用于语音合成。从声学参数到实际声音的转换是实时完成的。前端模块用于对输入文本进行正则化和词法分析,我们将这些语言特征编码为神经网络训练的输入。后端模块用于构建从输入语言特征到声学参数的映射。在我们的系统中,我们使用DFSMN作为后端模块。深度前馈序列记忆网络紧凑型前馈序列记忆网络(cFSMN)作为标准前馈序列记忆网络(FSMN)的改进版本,在网络结构中引入低秩矩阵分解,简化了FSMN,减少了参数数量模型,加速模型的训练和预测过程。上图给出了cFSMN结构的示意图。对于神经网络的每个cFSMN层,计算过程可以表示为如下步骤①经过一次线性映射,将上一层的输出映射到一个低维向量②记忆模块进行计算,计算总和当前帧前后几帧当前帧的低维向量的维度加权和③将加权和通过仿射变换和非线性函数得到当前层的输出。这三个步骤可以依次表示为以下公式。与循环神经网络(RNN,包括BLSTM)类似,cFSMN具有通过调整记忆模块的顺序来捕获序列的长程信息的能力。另一方面,cFSMN可以直接通过反向传播算法(BP)进行训练,与必须使用时间反向传播(BPTT)进行训练的RNN相比,这种算法更快且不易受梯度消失的影响。影响。进一步改进cFSMN,我们得到了一个深度前馈序列记忆网络(DFSMN)。DFSMN利用了广泛应用于各种深度神经网络的skip-connections技术,使得在执行反向传播算法时,梯度可以绕过非线性变换,即使堆叠更多的DFSMN层,网络仍能快速正确收敛。对于DFSMN模型,增加深度的好处是双重的。一方面,更深的网络通常具有更强的表示能力。另一方面,增加深度可以间接增加DFSMN模型可以用来预测当前帧输出的上下文的长度,这在直观上非常有利于捕获序列的远程信息。具体来说,我们在相邻两层的内存模块之间添加skipconnections,如下式所示。由于DFSMN各层内存模块的维度相同,因此可以通过恒等变换实现skipconnections。我们可以将DFSMN视为一个非常灵活的模型。当输入序列很短,或者预测延迟很高时,可以使用较小的记忆模块阶数。在这种情况下,仅使用当前帧附近帧的信息来预测当前帧的输出。而如果输入序列很长,或者预测延迟不是那么重要的场景,可以使用更大的记忆模块阶数,那么序列的长程信息就可以得到有效的利用和建模,有利于提高模型的性能。除了顺序之外,我们在DFSMN的记忆模块中添加了另一个超参数,stride,用于指示记忆模块在从过去或未来的帧中提取信息时跳过了多少相邻帧。这是有道理的,因为语音合成任务中相邻帧之间的重叠比语音识别任务中的重叠更多。如上所述,除了直接增加每一层的记忆模块的阶数外,增加模型的深度还可以间接增加模型在预测当前帧的输出时可以使用的上下文的长度。上图给出了一个例子。实验在实验阶段,我们使用了男性阅读的中国小说数据集。我们将数据集分为两部分,训练集包含38600句朗读(约83小时),验证集包含1400句朗读(约3小时)。所有语音数据采样率为16kHz,每帧长度为25毫秒,移帧为5毫秒。我们使用WORLD语音合成器逐帧提取声学参数,包括60维梅尔倒谱系数、3维基频对数、11维BAP特征和1维清音标记。我们将以上四组特征作为神经网络训练的四个目标进行多目标训练。前端模块提取的语言特征,共754维,作为神经网络训练的输入。我们比较的基线系统基于强大的BLSTM模型,该模型由底部的1个全连接层和顶部的3个BLSTM层组成,其中全连接层包含2048个单元,BLSTM层包含2048个记忆单元。该模型通过时间反向传播(BPTT)进行训练,而我们的DFSMN模型通过标准反向传播(BP)进行训练。包括基线系统,我们的模型在2个GPU上使用块模型更新过滤算法(BMUF)进行训练。我们使用多目标帧级均方误差(MSE)作为训练目标。所有的DFSMN模型都是由底层的几个DFSMN层和上面的两个全连接层组成,每个DFSMN层包含2048个节点和512个投影节点,每个全连接层包含2048个节点。上图中,第三列表示模型由若干层DFSMN层和若干层全连接层组成,第四列表示模型的DFSMN层的记忆模块的阶数和步长。由于FSMN这一类模型首先用于语音合成任务,我们的实验从浅层小阶模型开始,即模型A(注意只有模型A的步长为1,因为我们的步长为2被发现始终比步长为1)的相应模型略好。从系统A到系统D,我们逐渐增加阶数,同时固定DFSMN层数为3。从系统D到系统F,我们逐渐增加层数,同时固定阶数和步长为10、10、2,2.从系统F到系统I,我们将DFSMN的层数固定为10,再次逐渐增加阶数。在以上一系列实验中,随着DFSMN模型深度和阶数的增加,客观指标逐渐降低(越低越好),这种趋势非常明显,系统H的客观指标超过了BLSTM基线。另一方面,我们也做了一个平均主观得分(MOS)测试(越高越好),测试结果如上图所示。主观测试由40位以中文为母语的测试人员通过付费众包平台完成。在主观测试中,每个系统生成了20个预设合成话语,每个话语都由10名不同的测试者独立评估。主观平均分测试结果表明,从系统A到系统E,主观听感的自然度逐渐增加,系统E达到了与BLSTM基线系统相同的水平。然而,虽然后续系统的客观指标不断提升,但主观指标只是在系统E分上下波动,没有进一步提升。结论根据以上主客观测试,我们得出结论,捕获120帧(600毫秒)的历史和未来信息是语音合成声学模型建模所需上下文长度的上限,更多的上下文信息没有直接作用关于合成结果。帮助。与BLSTM基线系统相比,我们提出的DFSMN系统可以获得与基线系统相同的主观听感,而模型大小仅为基线系统的1/4,预测速度是基线系统的4倍,这使得该系统非常适用于对内存占用和计算效率要求高的终端产品环境,例如部署在各种物联网设备上。原文链接:https://arxiv.org/abs/1802.09194团队:阿里巴巴语音交互智能团队作者:毕梦晓/MengxiaoBi,LuHeng/HengLu,ZhangShiliang/ShiliangZhang,LeiMing/MingLei,YanZhijie/闫志杰会议:ICASSP-2018