当前位置: 首页 > 科技观察

基于线性网络的说话人自适应语音合成

时间:2023-03-14 14:50:19 科技观察

【.com原创文章】说话人自适应算法利用少量说话人语料构建说话人自适应语音合成系统,可以合成出令人满意的语音。在本文中,我们提出了一种用于语音合成的基于线性网络的说话人自适应算法。该算法为每个说话人学习特定的线性网络,以获得属于目标说话人的声学模型。通过该算法,用目标说话人的自适应语料库的200个句子训练的说话人自适应系统可以获得与用1000个句子训练的说话人相关系统相似的合成效果。研究背景对于一个目标说话人,如果他(她)有足够的训练数据,那么我们就可以建立一个与说话人相关的声学模型,基于这个声学模型的系统称为与说话人相关的语音合成系统。使用这个系统,我们能够合成与目标说话者的声音非常相似的语音。然而,大多数时候,目标说话人没有足够的数据,这使得合成语音不太理想。利用说话人自适应算法,可以在相对有限的数据基础上得到较好的语音合成系统。这类算法节省了大量的录音、转录和检查工作,使得创建新语音的成本非常小。在本文中,我们提出了一种基于线性网络(LN)的语音合成的说话人自适应算法。该算法在源说话人的声学模型各层之间插入一个线性网络,然后利用目标说话人的数据更新线性网络和神经网络的输出层,从而得到属于目标说话人的声学模型.此外,将基于低秩加对角线(LRPD)的模型压缩算法应用于线性网络。实验发现,当数据量较小时,使用LRPD去除一些冗余参数,可以使系统合成的声音更加稳定。算法描述本文中,源说话人声学模型是基于多任务(multi-task)DNN-BLSTM的声学模型,见图1左侧。声学模型的输入是语音特征,而输出是声学特征。声学特征包括梅尔倒谱系数等。实验证明,在声学模型底部使用深度神经网络(DeepNeuralNetwork,DNN)可以获得更好的底部特征,收敛速度比不使用DNN更快。在输出层,不同的声学特征使用自己的输出层,它们只共享声学模型的隐藏层。基于线性网络的自适应算法最早是在语音识别领域提出的,其体系结构如图1右侧所示。根据插入线性网络的位置,可分为线性输入网络(LinearInputNetwork,LIN)、线性隐藏层网络(LinearHiddenNetwork,LHN)和线性输出网络(LinearOutputNetwork,龙)。对本文提出的算法进行实验,在中文数据集上进行实验,该数据集包含3个说话人,每个说话人有5000个句子,时长约5h。数据集中语音的采样率为16k,特征提取的窗长和窗移分别为25ms和5ms。三位发言人分别以A-male、B-female和C-female命名。本实验中源说话人声学模型训练过程中使用的句子数为5000,为了比较不同句数下的合成效果,目标说话人的自适应数据集对应的句子数为50到1000。除了自适应数据集,我们将200个句子作为开发集,20个句子作为测试集(用于主观评分)。为了分析性别对适应效果的影响,进行了三对源说话人-目标说话人实验:女孩-女孩、男孩-女孩和女孩-男孩。此外,客观指标和主观聆听都用于衡量模型的性能。客观指标主要包括:Mel-CepstralDistortion(MCD)、F0的均方根误差(RMSE)、开发集的清音/浊音(U/V)预测误差和MSE。主观听音主要是对系统合成的声音样本的自然度和相似度打分——平均意见得分(MOS)。以girls-girls(C-female-B-female)为例,图3展示了不同自适应句的个数与客观测度的关系。其中,SD表示speaker-dependentsystem,OL表示仅更新源说话人声学模型输出层的speakeradaptivesystem,OL+Full-LN和OL+LRPD-LN表示基于Full-LN的语音和LRPD-LN,分别。人类适应系统。根据图3,随着训练/自适应句子数量的增加,所有系统的客观指标趋于相似。比较SD和其他三个自适应系统,在相同的句子数量下,自适应系统的性能更好。另外,OL+LRPD-LN和OL+Full-LN相比于OL都有性能跳跃(提升),说明只更新输出层而不更新其他层不能获得更好的自适应效果。同时,在自适应句数较少的情况下,OL+Full-LN的客观表现要差于OL+LRPD-LN。这是因为OL+Full-LN引入的参数过多,存在过拟合问题。.反之,当句子数量较多时,OL+Full-LN在客观表现上优于OL+LRPD-LN。此时OL+LRPD-LN由于参数少,存在欠拟合问题。图4比较了不同系统之间的自然度和相似度。随着句子数量的减少,SD系统的性能急剧下降,OL+LRPD-LN比SD和OL+Full-LN更稳定。与客观指标一致,OL+Full-LN和OL+LRPD-LN在相同数量的句子方面优于SD。此外,OL+Full-LN和OL+LRPD-LN在200个句子时的表现与SD在1000个句子时的表现相似。与objectivemeasure不同,OL+LRPD-LN在句子低于500时优于OL+Full-LN。这是因为过拟合导致合成声音不稳定(虽然objectivemeasure更好)和声音的可懂度降低了。由此,我们仍然可以得出相同的结论:当自适应句子数量较少时,过拟合使得OL+Full-LN的性能变差。结论本文将基于线性网络的说话人自适应算法应用于语音合成领域,基于LRPD的模型压缩算法可以提高语音的稳定性。通过对三个不同的源说话人-目标说话人对进行实验,我们发现LRPD可以在自适应句子的数量非常少的情况下提高语音稳定性。此外,通过所提出的算法,使用目标说话人的200个句子的训练语料库训练的说话人自适应系统可以达到与使用1000个句子训练的说话人相关系统相似的效果。【本月排名***0】张震:AIOps的六大技术难点与宜信运维的重大变革新居网络程永信:为运维平台插上AI的翅膀焕发新活力从SIEM&AI到SIEM@AIAI构建基于线性网络说话人自适应转移的一代企业安全大脑语音合成公司架构算法部孙轩:AI下的微服务架构【原创稿件,合作站点转载请注明原作者和出处.com】