数星星盼月亮,万千杰粉丝等了6年,终于在不久前等到了周杰伦的新专辑!一经上线,便引发全网讨论。就在大家沉浸在当年青葱岁月的美好回忆中时,发布爆款音频的网友表示:这段对话居然是语音合成的!提到“语音合成”,你的脑海中可能会浮现出这样的画面:丰富多彩但语气机械的导航中的“前方路口左转”;中”?视频网站上,十个解说视频中有九个声音相同,看到就想快速划开,“仔细看,这个人叫小帅”……但现在直接颠覆了与很多人的刻板印象不同,语音合成技术已经能够像上面的音频一样,达到完美自然的效果。本次音频的发布者火山之声,字节跳动AILabSpeech&Audio智能语音音频团队,使用了两段音频来更好的把里面的技术亮点解读给大众,这几句话输入的文字完全一样,就是“南方菜偏爱蘸酱。比如我第一次去上海的时候并不知道烧烤的蔬菜也需要蘸酱”,但是合成出来的音频效果明显不同,也就是第二段音频来自火山之声团队推出的全新灵异对话语音合成技术。回想人在日常表达中的状态,大脑需要思考时间来处理信息。反映在语言上,人会不由自主地出现一些犹豫、拖延、倒置,甚至一半-说话、口吃和重复,并且会刻意加大发音来强调要表达的关键信息。这导致大量难以观察的细微表情,这些现象在传统的TTS中很难捕捉和还原。这些细微之处的完美再现,正是让声音真假难辨的神秘之源,也是上述音频的奥秘所在。具体来说,火山之声团队最新发布的灵异对话语音合成技术,比传统TTS更加逼真自然,即语气词、呼吸音、犹豫停顿、拖长词音等细节都得到了完美再现,并且仅需常规音库1/4的数据,即可完美还原真人语音细微的节奏特征和发音,使合成效果更逼真。从专业的评测结果来看,火山之声的新技术与真实录音基本没有区别,评测人员很难区分。此外,该技术已在视频配音、电话客服等多个场景投入使用,即将登陆火山机语音科技官网。如此强大的技术是如何诞生的?据介绍,上述在实际交际中经常出现的喘气、吞咽、思考时不由自主地延长词音、低笑等表现,被称为副语言现象(paralanguage),虽然这是人脑思考的过程和表达。然而,由于传统的语音合成技术框架无法对稀疏分布的副语言现象进行有效建模,导致说话中的韵律还原性能有限,过于“正确”。基于以上难点,火山语超自然语音合成技术在文本和语音建模两个层面取得了突破。具体来说:在文本层面,VolcanicSpeech采用生成式风格迁移模型,模仿真人说话的方式对文本进行可控的口语化音译,让文本更好地拥抱口语化,避免最终效果过于写实。?在语音层面,团队在文本分析模型上取得突破,在TTS输入端加入副语言预测,模仿真人发音特征,实现自然自发的语音效果。值得一提的是,团队通过使用具有无监督特征的TTS建模方案,有效提升了模型的稳定性和表现力。只需使用常规音色库的1/4数据规模,就可以实现非常自然多变的节奏效果很棒,对吧?致力于文字的口语化,让“真人表达”在纸上跃然纸上文字作为语音合成技术的输入。风格是否贴近真人表情,是提高合成效果的第一步;但受限于根深蒂固的写作习惯,大部分预合成的文字都不够自然,或者需要付出很大的努力和不断的调整,费时费力。为了解决此类问题,VolcanoSpeech团队采用了两阶段的解决方案并取得了不错的效果:?Stage1:使用自监督的方法,使用虚拟数据预训练口语模型,减少对数据量的需求;模型中引入了指针网络结构,增强了文本的可控性。?Phase2:使用少量高质量的人工标注数据对预训练的口语模型进行微调,最终达到可控自然的口语文本效果。原文自动预测后的文本。南方菜系偏爱蘸酱。比如我第一次去上海的时候不知道烧烤里的蔬菜也需要蘸酱。嗯,对于南方的菜系,我倒是比较喜欢蘸酱什么的,像我也是第一次,呃,第一次去上海的时候,才发现这家烤肉里的蔬菜也应该蘸着蘸酱吃。像我们去街上买白菜,南方人说我要半车白菜,北方人说我要半车白菜嘛,跟我们去街上买白菜差不多。南方人说我要半个白菜,北方人说我要半个车。其实南方菜更多的是讲究调味的味道,也就是厨师用调味来发挥技艺。其实南方菜更注重调味料的味道,也就是说厨师是靠调味料发挥技艺的。副语言建模+节奏多样性非常出色。语音真实感全面升级为了更好的还原真人,区别于传统的语音合成技术,VolcanicSpeech还对副语言建模和韵律多样性进行了深入研究。在副语言建模方面,团队推出的合成技术使声学模型能够模拟自然表情中的吸气、笑声、犹豫、纠正等各种副语言现象,并结合文本的语义信息自动插入副语言现象现象。兼顾插入过程的合理性和随机性,表现得更加自然真实。TextSupernatural我觉得这个
