当前位置: 首页 > 科技赋能

微软小冰版本《野狼 Disco》背后,语音合成技术走了哪些路?

时间:2024-05-20 02:10:12 科技赋能

自2017年在微软(亚洲)互联网工程院诞生以来,微软小冰已经迭代了5年,目前是第七代产品。

两年前发布了人类历史上第一本人工智能创作的诗集,今年又举办了人类历史上首次人工智能绘画展。

不久前,一首由微软小冰演唱的歌曲《野狼 Disco》也在音乐平台上线。

微软小冰是如何学会唱歌的?微软首席声音官科学家栾剑在Workshop活动上分享。

为什么要让小冰唱歌?早在2000年,小冰就提出了语音聊天的功能,这意味着除了文字回复之外,还可以通过语音回复。

这个声音刚推出的时候,就受到了业界和很多C端用户的关注和好评,因为这个声音在当时显得非常的活泼、活泼,而且很符合小冰的性格,而且是个古灵精怪的萌妹子。

经过一年多的时间,团队在这个声音上加入了很多技巧,比如童声、中英文混合朗读、讲儿童故事、表达各种情感等。

添加了这些东西之后,语音合成领域的一些重大问题已经解决了,但是在分词、多音素、节奏等方面可能还存在一些缺陷。

这方面需要语义理解,可以通过长期积累和技术发酵逐步解决。

于是小冰团队想找一个更有挑战性的课题,最终选择了唱歌。

究其原因,主要有三点:一是唱歌的门槛比说话高。

一般人都会说话,但不是每个人都会唱歌,也不是每个人都能唱好,因为唱歌有三要素。

除了发音之外,还有其他要求,技术难度较大。

二是情感表达更加丰富、更加强烈。

古人云:“幸好,歌声表达志向”。

人们在特别高兴的时候就会想唱歌。

《诗经》说:“我的心很担心,所以我唱歌。

”这说明我们悲伤的时候也喜欢唱歌。

现在的流行歌曲中有很多情歌都是与失恋有关的。

不管是什么原因,你都可以找到一首符合你心情的情歌。

除了幸福和悲伤,在一些比较重要、有纪念意义的场合,比如中华人民共和国成立70周年,大家都会《我和我的祖国》这首歌单循环播放。

歌曲是一种深受人们喜爱的音乐形式。

第三,它是一种非常重要的娱乐形式。

《快乐女生》、《我是歌手》、《中国好声音》等节目风靡全国。

唱得好的话,应该有很大的市场前景和发展方向。

歌唱有三大要素:发音、节奏、旋律,所以小冰团队决定做歌唱。

怎么做?首先,我们需要研究一下歌唱和口语的区别,因为很多歌唱技巧可以说是继承自语音合成,语音合成有三大要素:第一,发音。

因为唱歌不是哼歌,所以你不能只是用“啊”或“嗯”来哼歌。

你必须清楚地发音和发音,这与说话一样。

第二,节拍,有一些通过节奏的变化来表达节奏的艺术形式,比如说唱、《我和一个人喝酒喝醉》等。

可能没有其他旋律,但主要是通过节拍的组合来表达的。

节奏在歌唱中非常重要。

重要元素。

第三,旋律、每个词的音高都会不同。

如果音调不对或者跑调,这首歌肯定是难以听的。

因此,这三个要素构成了歌唱最基本的要素。

当然,这上面还可以叠加很多技巧,比如颤音、呼吸等等。

如何学唱歌 机器怎么会唱歌?首先,如果有人唱过这首歌,机器可以学习这首歌听起来应该是什么样的。

其次,通过乐谱,可以是简单的乐谱,也可以是五线谱,下面是歌词。

简化的乐谱涵盖了这三个要素,包括歌词、发音要素、节拍和音高。

对于人们来说,第一个途径就是听原创歌手是怎么唱歌的。

这是一种比较简单或者说粗放的学习方式,因为并不是所有的人都有读乐谱的特殊技能,但对于机器来说相反,第二种输入法可能是一种更方便、更干净的输入方式。

如果是从人的录音中学习,有时需要检测音高曲线,检测每个单词的起止位置,判断每个发音,所以这个过程中会出现一些错误和失误。

,所以如果有乐谱输入,下一步会更容易。

传统的通过单元拼接的歌唱合成方法主要有两大类。

第一种是单元拼接。

这种方法起步比较早。

市场上也有一些主流工具是使用这种方法生成的。

其基本思想是首先建立一个单元库。

这个单元的意义可以是普通话的声母和韵母。

汉语有21个声母和35个韵母。

如果不考虑声调,音节大约有一定数量。

您可以为每个单元录制发音。

例如,对于发音a,我可以录制不同长度和不同音高的a,包括高音和中音。

、bass,就这样收集一个单元库。

有了这个单元库,在合成歌曲时,可以根据发音、目标时长和目标音高,从单元库中选择最符合要求的单元,然后通过信号处理进行修改。

,修改其时长和音调,使其能够完美匹配所需的效果,然后将这些单元串在一起并拼接在一起以获得最终的音频。

这种方法最大的优点是简单易实现,而且在采集声音时音质基本上可以保留最好的音质,但也存在一定的问题。

因为单元采集过程是分别采集每个发音。

在一串语音流中,单个发音和一串语音流中的连续发音存在很大差异。

因此,用这种方法生成出来的歌曲会比较生硬一些,而且唱起来也不是那么自然。

每一个字都给人一种逐字跳跃的感觉。

而且因为完全是按单元拼接的,所以变化可能比较少,词与词之间的过渡也不是那么好。

参数综合法 第二类是参数综合法。

最早的参数合成是隐马尔可夫模型,该模型已在语音行业使用多年。

参数合成的方法不是建立单元库,而是从所有记录的数据中提取声学参数。

声学参数可以包括能谱、持续时间和音调,然后建立模型。

到了合成的时候,只需将想要的发音预测到模型中,预测声学参数,然后通过声学参数和声码器重建音频波形。

这种方法比较灵活。

它基本上将所有东西分解成碎片,然后再重新组合在一起。

强度会很小,所以会有很多变化。

你甚至可以创造出从未存在过的声音,并且可以获得训练集中从未出现过的东西。

但它最大的缺陷是声码器。

由于是转成参数,然后将参数还原成声音,这个过程中会有音质的损失,所以它最大的缺陷就是音质会比第一种方法低一些。

小冰一开始就选择了第二种方式,因为它的前景更光明。

最初的模型是从乐谱中收集三大要素,然后使用三个模型分别对声谱参数、节奏序列和音高轨迹进行建模。

然后使用预测的参数通过声码器生成波形。

这是以最早、最简单的模块化方式完成的。

但仍然存在一个问题。

对于同一个发音,比如“啊”,如果发特别长的“啊”或者特别短的“啊”,无论音调高还是低,音色都会有明显的不同。

就像人的声音一样,唱高音和唱低音时声音可能会有所不同。

如果使用同样的方法,无论是哪种音调,都可能以同样的方式合成。

会有问题。

此时,节奏和音调的预测结果作为输入,传递给声谱参数的预测。

这样,刚才提到的一些问题就可以得到缓解。

由于这三个参数之间存在着非常重要的耦合性,需要同步协调和预测,所以我们不妨使用一个模型来同时预测这三个参数。

当然,用一个模型来预测这三个参数肯定是困难的。

最新的模型中使用了非常复杂的结构,包括卷积神经网络、注意力机制、其他残差连接等。

这也是因为神经网络发展到今天,有很多可用的模块,使得可以同时对三个参数进行建模。

同时。

这样生成的波形的自然度和平滑度将会显着提高。

数据也很重要。

另一部分是关于数据的。

深度学习实际上在 20 世纪 90 年代就很流行,但并没有取得像今天这么伟大的成果。

主要有两个原因。

一是因为当时的硬件技术没有足够的计算能力。

现在有了GPU,而且GPU也在不断的升级,所以它的计算能力在提高。

第二个就是深度学习只有在大数据的支持下才能做得这么好。

对于唱歌的任务来说,数据有点困难。

因为相对于口语来说,无伴奏合唱的资料很少,大部分资料都是混音和伴奏曲目。

我们曾经和一家唱片公司合作过,他们的数据库经过大概10年的积累,他们的素材库中人声无伴奏歌曲还是比较少的,而且大部分都是成品歌曲。

对于传统的歌唱合成来说,混合各种音轨伴奏是比较困难的。

无论是人工智能的创造,还是歌唱技巧的提升,都需要我们两条腿走路。

一方面要不断完善模型,另一方面要不断收集更多的数据。

如果这两件事能做得更好,质量就会不断提高。