当前位置: 首页 > 科技观察

如何构建具有紧凑语音表示的高性能语音合成系统

时间:2023-03-18 14:51:14 科技观察

小红书多媒体智能算法团队与香港中文大学首次联合提出基于多阶段的高性能语音合成方案MSMC-TTS多码本紧凑语音表示。基于矢量量化变分自动编码器(VQ-VAE)的特征分析器使用多个码本分阶段对声学特征进行编码,以形成一组具有不同时间分辨率的潜在序列。这些潜在序列可以通过多阶段预测器从文本中预测出来,并通过神经声码器转换为目标音频。与基于Mel-Spectrogram的Fastspeech基线系统相比,该方案在音质和自然度上有显着提升。这项工作已被总结成一篇论文“AMulti-StageMulti-CodebookVQ-VAEApproachtoHigh-PerformanceNeuralTTS”,并被语音领域的会议INTERSPEECH2022接收。一、背景介绍文本转语音(Text-to-Speech,简称TTS)是一种将文本转换为语音的技术,广泛应用于视频配音、音视频内容创作、智能人机交互等产品中。主流语音合成系统后端的声学建模技术通常包括三个部分:特征提取器、声学模型和声码器。TTS通常对基于信号处理(如MelSpectrogram)得到的声学特征进行声学建模,但受限于模型的拟合能力,预测的声学特征与真实数据的分布存在一定差异。这使得在真实数据上训练的声码器很难从预测的特征中生成高质量的音频。TTSSystemFrameworkDiagram为了解决这个问题,学术界使用更复杂的模型结构和新颖的生成算法来减少预测误差和缩小分布差异。然而,这项工作采用了不同的方法,以紧凑的语音表示作为考虑问题的起点。对于语音合成,1)良好的声学特征紧凑性可以保证更准确的模型预测结果和更稳健的波形生成;2)良好的声学特征完备性可以保证更好地重构语音信号。基于这两个考虑,本文提出了一种矢量量化变分自动编码器(VQ-VAE),以从目标数据中挖掘出更好的紧凑表示。2.表示学习MSMCVQ-VAEVQ-VAE包括编码器和解码器。编码器将输入的声学特征序列处理成隐藏序列,并用相应的码本对其进行量化。解码器将量化序列恢复为原始声学特征序列。该量化序列作为离散化表示具有更好的紧凑性(更少的特征参数)。量化程度越高,即码本容量越小,特征紧凑程度越高。但是这样也会造成信息压缩,使得特征完整性变差。为了保证足够的完整性,一般会使用更多的码字。但是,随着码本容量的增加,码本更新所需的数据量和训练次数都会呈指数级增长,这使得VQ-VAE很难通过增加码本来有效提升表示完备性。为了解决这个问题,本文提出了一种多头矢量量化(MHVQ)方法。VQ-VAE模型结构图MHVQ将单个码本按照特征维度的方向划分为若干个子码本。量化时,将每个输入向量均等切割成若干个子向量,用相应的子码本进行量化,最后拼接成一个输出向量。这样,我们可以在不增加码本参数数量的情况下,更有效地提高码本利用率和表示能力。例如,要将压缩比降低1,则应将码字增加到原始码本编号的平方。采用MHVQ后,只需将码本一分为二即可达到相同的压缩率。因此,本方法可以更有效地规范定量表示的完整性。MHVQ示例图另外,当对语音序列进行量化时,语音特征中包含的各种信息都不同程度地丢失了。信息在时间粒度上是不同的,如粗粒度的音色、发音风格等,和细粒度的音高、发音细节等,任何时间尺度上过度压缩信息都可能导致语音质量被破坏到一定程度程度。为了缓解这个问题,这项工作提出了一种多时间尺度的语音建模方法。如图所示,声学特征序列通过若干个编码器分阶段编码到不同的时间尺度,再由解码器逐层量化,解码得到若干个不同时间分辨率的量化序列。由此类序列集组成的表示是本文提出的多阶段多码本表示。Multi-stagemodelingexample图3.声学建模MSMC-TTS针对MSMCR的多阶段多码本表示,本文提出了相应的TTS系统,即MSMC-TTS系统。该系统包括分析、综合和预测三部分。在系统训练中,系统首先训练分析模块。训练集中的音频经过信号处理并转化为高度完整的声学特征(例如本作品中使用的Mel-Spectrogram特征)。这些声学特征用于训练基于MSMC-VQ-VAE的特征分析器,训练结束时,将其转化为对应的MSMCR,进而训练声学模型和神经声码器。在解码过程中,系统使用声学模型从文本中预测MSMCR,然后使用神经声码器生成目标音频。MSMC-TTS系统框架图这项工作还提出了一个多阶段预测器来适应MSMCR建模。该模型是在FastSpeech之上实现的,但在解码器端有所不同。该模型首先对文本进行编码,然后根据预测的持续时间信息对文本进行上采样。然后将序列下采样到对应于MSMCR的每个时间分辨率。这些序列将由不同的解码器从低分辨率到高分辨率逐步解码和量化。同时将低分辨率量化后的序列送入下一级解码器,辅助预测。最后,将预测的MSMCR馈入神经声码器以生成目标音频。Multi-stagepredictorstructurediagram在训练和推断多阶段预测器时,这项工作选择直接预测连续空间中的目标表示。这种方法可以更好地考虑线性连续空间中向量与码字的距离关系。除了TTS建模常用的MSE损失函数外,训练准则还使用了“tripletloss”来强制预测向量远离非目标码字并靠近目标码字。通过结合这两个损失函数项,该模型能够更好地预测目标码字。4.实验结果这项工作在公开的英语单人数据集Nancy(BlizzardChallenge2011)上进行了测试。我们组织了主观意见评分测试(MOS)来评估MSMC-TTS合成的效果。实验结果表明:当原始录音为4.50分时,MSMC-TTS的得分为4.41分,基线系统Mel-FS(Mel-SpectrogrambasedFastSpeech)为3.62分。我们调整了基准系统的声码器以适应Mel-FS输出特性,得到3.69分。对比结果证明本文提出的方法可以显着改善TTS系统。此外,我们进一步讨论了建模复杂性对TTS的性能影响。从M1到M3,模型参数数量呈指数下降,Mel-FS的综合效果下降到1.86分。与MSMC-TTS相比,参数数量的减少对合成质量没有显着影响。当声学模型参数大小为3.12MB时,MOS仍能保持4.47分。这不仅展示了基于紧凑特征的MSMC-TTS建模的低复杂性要求,而且展示了该方法应用于轻量级TTS系统的潜力。最后,我们基于不同的MSMCR进行了MSMC-TTS比较,以探索MHVQ和多阶段建模对TTS的影响。其中,V1系统采用单级单码本表示,V2系统采用基于V1的4头矢量量化,V3系统采用基于V2的两级建模。首先,V1系统使用的表示具有最高的特征压缩率,但在分析-合成实验中完整性最低,在TTS实验中合成质量最差。在MHVQ增强完备性之后,V2系统在TTS效果上也有了明显提升。虽然V3使用的多阶段表征在完整性上没有进一步提高,但它在TTS上表现出最好的效果,无论是在节奏自然度还是音频质量方面。这进一步表明多阶段建模和多尺度信息保存在MSMC-TTS中具有重要意义。五、总结这项工作从压缩语音表示的角度出发,提出了一种新的高性能TTS(MSMC-TTS)建模方法。该系统从音频中提取多级多码本表示,以取代传统的声学特征。输入文本可以通过多级预测器转换为由具有不同时间分辨率的多个序列组成的语音表示,并通过神经声码器转换为目标语音信号。实验结果表明,与主流的基于Mel-Spectrogram的FastSpeech系统相比,该系统具有更好的合成质量和更低的建模复杂度要求。6.作者信息郭浩涵:小红书多媒体智能算法团队实习生。毕业于西北工业大学,获硕士学位,在ASLP实验室学习,师从谢磊教授。他目前是博士学位。香港中文大学HCCL实验室学生,师从孟美玲教授。迄今为止,作为第一作者在ICASSP、INTERSPEECH、SLT国际演讲会议上发表论文6篇。谢峰龙:小红书多媒体智能算法团队语音技术负责人。在ICASSP、INTERSPEECH、SPEECHCOM等演讲会议和期刊发表论文十余篇,长期担任ICASSP、INTERSPEECH等主要演讲会议审稿人。主要研究方向为语音信号处理与建模。