当前位置: 首页 > 科技观察

为了合成人类能听懂的语音,机器做了怎样的“深度学习”?

时间:2023-03-21 15:04:52 科技观察

深度学习从2006年开始崭露头角,近年来取得了飞速发展。学术研究和企业应用均呈指数级增长趋势;随着这项技术的不断成熟,深度学习率先在智??能语音领域取得了一系列的成功应用。例如,1.音色的定制需要跟踪记录大量的音色库,重新训练一个模型;2.个性化表示方式的定制可以通过记录一些数据并通过深度学习和自适应方法训练模型来实现。深度学习在统计参数语音合成中的应用语音合成主要采用波形拼接合成和统计参数合成两种方法。波形拼接语音合成需要有足够高质量的人声录音才能合成出高质量的语音,是目前商用产品中最常用的语音合成技术。虽然统计参数语音合成的整体合成质量略低,但在小规模语料和低资源占用的情况下,其优势更加明显。此外,混合语音合成结合了波形拼接合成和统计参数合成的优点。选音方式与传统的波形拼接方式类似。它使用参数合成的方法来指导声音的选择。接下来重点介绍目前广泛使用的语音合成方法:(1)传统的基于DNN/LSTM的合成传统的基于HMM统计参数的语音合成是在训练过程中建立文本参数和声学参数之间的映射模型,以及通过高斯混合模型描述每个建模单元。建模过程中存在三个环节会导致语音质量下降。第一个是决策树的聚类,第二个是声码器,第三个是参数生成算法。针对决策树聚类问题,可以通过深度神经网络建立文本特征与声学特征的映射关系,替代传统的浅层模型,提高模型精度;典型的深度神经网络模型结构包括深度置信神经网络和长短时间记忆递归神经网络;后者具有更强的序列学习能力。使用BLSTM-RNN建模时,也可以跳过参数生成算法,直接预测语音参数,最后通过声码器合成语音;总的来说,利用深度神经网络强大的非线性建模能力,语音合成系统的性能得到了一定程度的提升,但并没有跳出原有的语音合成系统框架。(2)基于WaveNet的合成在现有研究中,很少有人直接在时域中对现有音频进行建模。从直观的分析来看,建立一个能够预测每个样本如何受到之前所有样本影响的自回归模型是一项相当困难的任务。Google提出的基于WaveNets的语音合成方法跳出传统的语音合成框架,绕过声码器模块,直接预测采样点。面对这个具有挑战性的问题,已经取得了突破。WaveNet语音合成系统的输入包括文本特征和前几个时期的音频样本。其中,文本特征的有效表达起着非常重要的作用。如果网络在没有文本序列的情况下进行训练,它仍然可以生成语音,但无法理解输出音频的内容。WaveNet语音合成系统存在的问题是模型每次输出单个采样点,计算效率难以满足实际要求。可以引入一些自适应方法来优化现有模型,使其适用于不同的说话人。还可以在模型的输入端提供更多的信息,例如情绪或口音,从而使生成的语音更加多样化和富有表现力。(3)基于DeepVoice的合成百度提出了DeepVoice语音合成系统,用深度神经网络实现了很多模块在里面,用类似WaveNet的合成器合成,效果比较理想。现有的语音合成系统会在部分环节使用深度学习,但在DeepVoice之前,还没有团队采用过完整的深度学习框架。传统的语音合成需要大量的特征处理和特征构建,而百度通过深度学习避免了这些问题。这使得DeepVoice的适用范围更广,更易于使用。如果需要应用到新的数据集上,传统的语音合成系统需要几天到几周的时间调整才能完成再训练,而DeepVoice的人工操作和训练模型只需要几个小时。与WaveNet语音合成系统相比,该系统的有效速度现在提高了400倍。(4)两种端到端的语音合成第一种是Char2Wav,这个模型是直接对输入的文本进行编码,使用encoder-decoder模型。对输入的特征进行编码,然后将生成的中间编码信息放入解码器进行最终合成。合成使用SimpleRNN合成器来合成语音。效果也很理想,是典型的End-To-End语音合成。模型。另一种是谷歌提出的端到端语音合成系统,类似于Char2Wav。输入也是Embeddings,合成效果更合理。作者马季:冀源智能科技有限公司联合创始人,中科院-西源“智能交互联合实验室”副主任,曾就职于中科院软件研究所和华为技术有限公司.,Ltd.,并获得了多项语音和音频领域。专利,高级软件开发工程师和网络安全解决方案专家,善于从用户角度分析需求,提供有效的技术解决方案,具有丰富的业务沟通和项目管理经验。作者:马骥,冀源智能科技联合创始人,中科院-西源“智能交互联合实验室”副主任。

猜你喜欢