当前位置: 首页 > 科技观察

从技术到产品,苹果Siri深度学习语音合成技术揭晓

时间:2023-03-13 18:44:22 科技观察

Siri是一款利用语音合成技术与人类交流的个人助理。从iOS10开始,Apple在Siri的语音中使用了深度学习,iOS11中的Siri延续了这一技术。使用深度学习让Siri的声音更自然、更流畅、更人性化。机器之心介绍了AppleJournal的技术博客,更详细的技术请参考原文。引入语音合成,人工创造人声,用于从助手到游戏、娱乐等各种领域。最近,随着语音识别,语音合成已经成为像Siri这样的语音助手不可或缺的一部分。今天,业界主要使用两种语音合成技术:单元选择[1]和参数合成[2]。单元选择性语音合成是商业产品中最常用的语音合成技术,因为它能够在给定足够高质量的录音的情况下合成最高质量的语音。或者,参数合成能够提供高度清晰、流畅的语音,但整体质量略低。因此,当语料库较小且占用率较低时,通常会使用参数合成技术。现代细胞选择系统结合了这两种技术的优点,因此被称为混合系统。混合细胞选择方法类似于传统的细胞选择技术,但其中使用参数合成技术来预测所选细胞。最近,深度学习在语音领域产生了巨大的影响,大大超越了隐马尔可夫模型等传统技术。参数合成技术也受益于深度学习技术。深度学习还启用了一类全新的语音合成技术,即直接声波建模技术(例如WaveNet)。该技术具有提供高质量细胞选择技术和参数选择技术灵活性的巨大潜力。然而,这种技术在计算上是昂贵的并且对于产品来说是不成熟的。为了在所有平台上提供最高质量的Siri语音,Apple通过在设备中的混合单元选择系统上使用深度学习迈出了这一步。Apple的深度语音合成技术如何工作为个人助理构建高质量的文本转语音(TTS)系统并非易事。首先,第一阶段是找一个声音悦耳、通俗易懂、符合Siri个性的专业音箱。为了涵盖广泛的人类语音,我们首先在录音室录制了10-20小时的语音。录制的脚本范围从有声读物到导航说明,从提示答案到笑话。一般来说,这种自然语音不能作为录音使用,因为不可能把助理说的每一个字都录下来。因此,单元选择TTS系统将录制的语音切成基本组件,例如半音素,然后根据输入文本将它们重新组合以创建全新的语音。在实践中,要选择合适的音素并将它们组合起来并不容易,因为每个音素的声学特性是由相邻的音素决定的,即语音的韵律,这通常会导致音素不兼容。图1显示了如何使用分割成半音素的数据库合成语音。图1:演示使用半音素的单元选择性语音合成。合成的发音是“单元选择合成”,图中上方是使用半音素的注音。相应的合成波形和频谱如图下部所示。由竖线划分的语音片段是来自数据集的连续语音片段,其中可能包含一个或多个半音素。单元选择TTS技术的基本挑战是找到满足输入文本、预测目标音位并且可以无明显错误地组合的单元序列(例如,半音素)。传统上,这个过程有两个部分:前端和后端(参见图2),尽管在现代系统中界限可能变得模糊。前端的目的是提供基于原始文本输入的语音转录和音韵信息。这包括将包括数字、缩写等的原始文本规范化为单词,并为每个单词分配音标,从文本中解析句法、音节、单词、重音、从句。请注意,前端高度依赖于语言。图2:文本到语音合成管道。使用文本分析模块创建的符号语言表示,音韵生成模块预测音高和持续时间等声学特征的值。这些值用于选择合适的单位。单元选择的任务极其复杂,因此现代合成器使用机器学习的方法来学习文本和语音之间的一致性,然后从未知文本的特征值中预测其语音特征值。该模块必须在合成器的训练阶段使用大量文本和语音数据进行学习。语音模型的输入是数字语言特征,例如音素属性、音素上下文、音节、单词和短语级别的位置特征转换为适当的数字形式。语音模型的输出包括语音的数值声学特征,例如频谱、基频、音素持续时间。在合成阶段,训练好的统计模型用于将输入的文本特征映射到语音特征,然后用于指导单元选择后端过程,其中音高和持续时间的适当性极为重要。与前端不同,后端通常与语言无关。它包括单位选择和波形拼接部分。在训练系统时,使用强制对齐(使用语音识别声学模型)将录制的语音和脚本对齐,以便将录制的语音数据分割成单独的语音段。然后使用语音段创建单元数据库。该数据库进一步增强了重要信息,例如每个单元的语言背景和声学特征。我们称此数据为单位索引。使用构建的单元数据库和预测的语音特征来指导选择过程,可以在语音空间中执行维特比搜索以找到单元合成的最佳路径(见图3)。图3.使用Viterbi搜索在栅格中查找单元合成***路径。图表上方是合成的目标半音素,下方的每个框对应一个单独的单元。维特比搜索找到的最佳路径是连接所选元素的线。该选择基于两个标准:(1)该单位必须遵循目标音系;(2)只要??有可能,单元应该在不在单元边界处产生听觉故障的情况下完成拼接。这两个标准分别称为目标成本和拼接成本。目标成本是预测的目标声学特征与从每个单元中提取的声学特征(存储在单元索引中)之间的差异,而拼接成本是后续单元之间的声学??差异(见图4)。总成本计算如下:其中u_n表示第n个单元,N表示单元数,w_t和w_c分别表示目标成本和级联成本的权重。在确定单元的最佳顺序后,将每个单元波形连接起来以创建连续的合成语音。图4.基于目标成本和拼接成本的单元格选择方法。Siri新语音隐马尔可夫模型背后的技术通常用于对对象预测进行统计建模[5][6],因为它们直接对声学参数的分布进行建模,因此我们可以利用该函数非常简单地计算目标成本。然而,基于深度学习的方法在参数化语音合成方面往往更胜一筹,因此我们也希望能够将深度学习的优势转移到混合单元选择合成中。Siri的TTS系统的目标是训练一个统一的基于深度学习的模型,自动准确地预测数据库中单元格的目标成本和连接成本。因此,该方法不使用隐马尔可夫模型,而是使用深度混合密度网络(MDN)[7][8]来预测特征值的分布。MDS结合了传统的深度神经网络和高斯混合模型(GMM)。常规DNN是在输入层和输出层之间具有多个隐藏层的人工神经网络。因此,这种深度神经网络能够对输入特征和输出特征之间的复杂和非线性关系进行建模。通常深度神经网络使用反向传播算法,通过误差的传播来更新整个DNN的权值。相比之下,GMM使用一系列高斯分布对给定输入数据的输出数据分布进行建模。GMM通常使用期望最大化(EM)算法进行训练。MDN结合了DNN和GMM模型的优点,即输入和输出之间的复杂关系被DNN建模,但改进了概率分布作为输出(如下图5所示)。图5:用于建模声学特征均值和方差的深度混合密度网络,输出的声学均值和方差可用于指导合成单元选择模型预测语音目标特征(频谱、音高和持续时间)和级联成本分布,并指导搜索单位。因为MDN的分布是高斯概率表分布,我们可以用似然函数作为目标和拼接代价的损失函数:其中x_i是第i个目标特征,μ_i是预测均值,(σ_i)^2是预测方差。在实际成本计算中,使用负对数似然函数,去掉常数项会更方便。经过以上处理,会简化为如下简单的损失函数:其中w_i为特征权重。当我们考虑自然语言时,这种方法的优势就变得很明显。与元音一样,有时语音特征(例如音素)相当稳定并且演化非常缓慢。有时变化非常迅速,如浊音和清音的转换。考虑到这种可变性,模型需要能够根据这种可变性来调整参数,深度MDN的做法是在模型中使用嵌入式方差(variancesembedded)。因为预测方差是上下文相关的,所以我们将它们视为成本的自动上下文相关权重。这对于提高合成质量非常重要,因为我们要计算当前上下文中的目标成本和串联成本:其中w_t和w_c分别是目标和串联成本权重。在最佳表述中,目标成本旨在确保合成语音(语调和持续时间)中的语音再现。并且拼接成本保证了顺畅的音韵和顺畅的拼接。在使用深度MDN对单元的总成本进行评分后,我们执行了传统的维特比搜索以找到单元的最佳路径。然后我们使用波形相似性重叠相加(WSOLA)算法(波形相似性重叠相加(WSOLA))找到完美的拼接时刻,从而生成流畅连续的合成语音。结论我们为Siri的新语音构建了一个完整的基于深度MDN的混合单元选择TTS系统。训练语音数据包含至少15小时的高质量语音,采样频率为48KHz。我们通过强制对齐将这些语音数据分割成半音素,即将输入的音素序列与通过自动语音识别从语音信号中提取的声学特征进行匹配。这个分割过程根据语音数据量产生1-2百万个半音素单元。为了指导单元选择过程,我们使用MDN架构训练了一个统一的目标和拼接模型。深度MDN的输入由二进制值和一些附加的连续值特征组成。该特征表示一系列句子、音节、短语和句子级别信息中的五音素信息(2个过去、现在和后对比音素),以及额外的突出和重音特征。输出向量包含以下声学特征:梅尔倒谱系数(MFCC)、delta-MFCC、基频(fundamentalfrequency–f0)和delta-f0(包含每个单元的起始值和结束值),以及声音为很长时间。由于我们使用MDN作为声学模型,输出还包含每个特征的方差作为自动上下文相关权重。此外,语音区域的基频作为一个整体高度依赖于发音,为了创建语调自然生动的合成语音,我们部署了一个循环深度MDN模型来对f0特征进行建模。经过训练的深度MDN的架构由3个隐藏层组成,每个隐藏层都有512个线性修正单元(ReLU)作为非线性激活函数。输入特征和输出特征在训练前进行均值和方差归一化。最终的单元选择语音由单元数据库(包含每个单元的特征和语音数据)和经过训练的深度MDN模型组成。新的TTS系统的质量比以前的Siri系统更好。在AB配对主观听力测试中,受试者明确选择基于深度MDN的新声音而不是以前的声音。结果如图6所示。质量改进与TTS系统的多项改进有关,例如基于深度MDN的后端支持更好的单元选择和拼接、更高的采样率(22kHz对48kHz)以及更好的音频压缩.图6:AB配对主观听力测试的结果。新声音明显优于以前的版本。由于TTS系统需要在移动设备上运行,我们使用快速预选机制、单元修剪和计算并行化在速度、内存使用和占用空间方面优化其运行时性能。新声音对于iOS11,我们选择了一个新的女性配音演员来提高Siri声音的自然度、个性和表现力。在选择最佳配音演员之前,我们评估了数百名候选人。一旦选定,我们就录制了20多个小时的语音,并使用新的深度学习TTS技术构建了新的TTS语音。***,新的美式英语Siri听起来比以前更好听了。下表为部分语音对比(无法展示,请查看原文)。更多技术细节请查看论文:SiriOn-DeviceDeepLearning-GuidedUnitSelectionText-to-SpeechSystem[9]表1.iOS11中新的Siri语音示例