当前位置: 首页 > 科技观察

不用蝴蝶结变声器你也能秒变柯南—语音合成+深度学习

时间:2023-03-13 04:38:40 科技观察

【.com原稿】相信看过《名侦探柯南》的朋友们一定还记得柯南的各种黑科技“救命神器”“新的。他们不仅陪伴柯南到各种犯罪现场协助破案,还在关键时刻帮助柯南脱险。其中,最著名的当属蝴蝶结变声器。近年来,随着科技的发展,这种神奇的蝴蝶结变声器已经成为现实。今天就让小编带大家一起探索一下它是如何实现的吧!语音合成的三部分简单来说,语音合成分为三个部分:文本分析、韵律分析和声学分析。通过文本分析提取文本特征,并在此基础上预测基频、时长、节奏等各种韵律特征,然后通过声学模型实现前端参数到语音参数的映射。语音合成的两种方法语音合成主要采用波形拼接合成和统计参数合成两种方法。波形拼接语音合成的过程很容易理解,就是从语料库中提取合适的拼接单元拼接成句子。参数化语音合成需要对声音库进行参数化建模,根据训练好的模型预测韵律参数和声学参数。通常情况下,波形拼接语音合成需要录音机进行数十小时以上的录音采集,而参数化语音合成只需要十几小时的录音采集即可完成定制语音包的制作。综合比较来看,拼接合成的语音更接近真实发音,但波形拼接语音合成需要足够多的高质量人声录音才能合成出高质量的语音;统计参数语音合成虽然整体合成质量略低,但在发音方面更有效。在人类语料有限的情况下,优势更加明显。深度学习下的语音合成近年来,深度学习成为AI领域的热门话题。不仅发展势头迅猛,涉及的领域也越来越广。学术研究和企业应用均呈指数级增长趋势;随着这项技术的不断成熟,深度学习也对智能语音领域产生了巨大的影响,大大超越了传统的语音合成技术。1.传统的基于DNN/LSTM的合成传统的基于HMM统计参数的语音合成是在训练过程中建立文本参数和声学参数之间的映射模型,通过高斯混合模型来描述各个建模单元。建模过程中存在三个环节会导致语音质量下降。第一个是决策树的聚类,第二个是声码器,第三个是参数生成算法。针对决策树聚类问题,可以通过深度神经网络建立文本特征与声学特征的映射关系,替代传统的浅层模型,提高模型的准确率;典型的深度神经网络模型结构包括深度置信神经网络和长度时间记忆递归神经网络;后者具有更强的序列学习能力。在使用BLSTM-RNN建模时,也可以跳过参数生成算法,直接预测语音参数,最后通过声码器合成语音;总的来说,利用深度神经网络强大的非线性建模能力,语音合成系统的性能得到了一定程度的提升,但并没有跳出原有的语音合成系统框架。2.基于WaveNet的合成在现有的研究中,很少有人直接在时域对现有音频进行建模。从直观的分析来看,建立一个能够预测每个样本如何受到之前所有样本影响的自回归模型是一项相当困难的任务。Google提出的基于WaveNets的语音合成方法跳出传统的语音合成框架,绕过声码器模块,直接预测采样点。面对这个具有挑战性的问题,已经取得了突破。WaveNet语音合成系统的输入包括文本特征和前几个时期的音频样本。其中,文本特征的有效表达起着非常重要的作用。如果网络在没有文本序列的情况下进行训练,它仍然可以生成语音,但无法理解输出音频的内容。WaveNet语音合成系统存在的问题是模型每次输出单个采样点,计算效率难以满足实际要求。可以引入一些自适应方法来优化现有模型,使其适用于不同的说话人。还可以在模型的输入端提供更多的信息,例如情绪或口音,从而使生成的语音更加多样化和富有表现力。3、基于DeepVoice的合成2017年2月,百度研究部提出了深度语音(DeepVoice)系统,这是一个完全由深度神经网络构建的高质量文本转语音系统。它用深度神经网络实现了很多模块在里面,用类似WaveNet的合成器合成,效果很理想。现有的语音合成系统会在部分环节使用深度学习,但在DeepVoice之前,还没有团队采用过完整的深度学习框架。传统的语音合成需要大量的特征处理和特征构建,而百度通过深度学习避免了这些问题。这使得DeepVoice的适用范围更广,更易于使用。如果需要应用到新的数据集上,传统的语音合成系统需要几天到几周的时间调整才能完成再训练,而DeepVoice的人工操作和训练模型只需要几个小时。与WaveNet语音合成系统相比,该系统的有效速度现在提高了400倍。4.两种端到端的语音合成第一种是Char2Wav,这个模型是直接对输入的文本进行编码,使用encoder-decoder模型。对输入的特征进行编码,然后将生成的中间编码信息放入解码器进行最终合成。合成使用SimpleRNN合成器来合成语音。效果也很理想,是典型的End-To-End语音合成。模型。另一个是Tacotron,谷歌提出的端到端语音合成系统,类似于Char2Wav。该模型可以接收Embeddings的输入,输出相应的原始声谱图,然后提供给Griffin-Lim重建算法直接生成语音。合成效果也比较合理。在测试结果上,综合效果也比较令人满意:Tacotron在美式英语测试中的平均主观意见得分达到了3.82分(满分5分),在自然度方面优于已经在生产中应用的参数系统。(参数系统)。此外,由于Tacotron在帧级别生成语音,因此它比样本级别的自回归方法快得多。好了,说了这么多,是不是对基于深度学习的语音合成技术有了更进一步的了解呢?事实上,我们现在已经熟练地把这项技术应用到很多领域:AIPromoter前面提到的纪录片《创造中国》中,节目负责人成功合成了“时代之声”李毅先生的声音";在“非同凡响”的张国荣60岁生日纪念活动中,他合成了张国荣生前的声音,并在张国荣最新电影的开场前首次公开了录制的对话视频《缘分》,满足了影迷对“与偶像互动”。以特殊的方式,纪念一代天王。...语音合成技术的不断发展,一方面凸显了技术发展的重要性,另一方面也给我们的日常生活带来了无数惊喜~【原创稿件、合作站点,转载请注明原作者及出处作为.com]