当前位置: 首页 > 科技观察

火山语音TTS技术实力通过国家检测中心认证,MOS评分高达4.64

时间:2023-03-17 21:30:06 科技观察

等级检验检测证书,语音合成基本要求和扩展要求达到AI国检中心最高等级。本次测评从普通话、多方言、多语言、混合语言、多音色、个性化等维度进行。产品的技术支持团队-火山语音团队提供了丰富的音色库。经过评测,它的音色MOS得分是最高的。4.64分处于行业领先水平。作为我国人工智能领域质检体系中首家也是唯一一家国家级语音图像产品质量检验检测机构,人工智能国检中心一直致力于推动智能语音产业的健康发展。此次获得AI国检中心的权威认证,也充分说明了火山之声的语音合成技术能力达到了行业领先水平。感受火山语音合成效果:https://lf3-speech.bytetos.com/obj/speech-tts-external/20221025-155948.mp4更多声音体验:https://www.volcengine.com/product/tts长期以来,火山语音为字节跳动主要业务线和火山引擎ToB行业及创新场景提供了业界领先的AI语音技术能力和优秀的全栈语音产品解决方案。目前,团队的语音识别和语音合成涵盖多种语言和方言,涵盖音视频、有声阅读、语音交互、游戏、广告等应用场景。等核心业务提供领先的语音能力。据了解,此次的VolcanoEngine语音合成产品由VolcanoVoice团队自主研发,采用业界领先的生成神经网络技术,主要由前端文本分析、声学模型、声码器三大模块组成。具体如下:前端文本分析:主要负责可理解性,如文本正则化(如将数字转化为年份读法、数字读法等)、字音转换(如汉语拼音、特别是解决和弦字符)、分词和韵律预测等。目前火山语音团队依靠多任务模型和神经网络正则化,可以同时支持12种主流小语种,效果很了不起。声学模型:主要负责从语言特征到声学特征的建模。数据显示,火山语音TTS的后端准确率可达99.90%。同时,该模型还可以支持多情感、多风格的细粒度控制、不同音色间的风格迁移,以及仅使用单语言训练数据的多语言合成效果。Vocoder模块:主要负责对音频信号进行声学特征建模。现在火山之声团队已经自主研发了基于对抗神经网络建模的声码器,其准确率可以达到99.95%。依托轻量化模型设计和工程优化,云端实时率可达100倍以上。火山引擎语音合成产品听感真实自然,演绎生动,风格多样。同时,细粒度还原真人节奏,实现笑声等多种副语言现象,带给人们身临其境的聆听体验。火山之声团队最近发布的超自然对话转语音合成技术就是如此。与传统TTS相比,它完美再现了语气词、呼吸音、犹豫停顿、拖长词音等细节,所需音库仅为传统音库的1/4。数据。此外,之前风靡网络的“音色再现技术”也是火山之声团队独创的。与传统语音合成技术对数据的高门槛要求不同,火山音木再生技术所需的数据量仅为传统方法的0.3%。普通人在相对安静的空旷环境中录音2分钟以上,即可实现声音空间建构。根据模型的标准,生成专属音色的AI模型,方便高效。目前,火山语音将以多年打磨的语音技术能力面向市场,通过火山引擎对外开放。已覆盖汽车、金融、音频阅读、视频配音等众多应用场景,已助力合众汽车、追书神器等多家企业。行业领先企业实现AI语音能力的应用和拓展。未来,火山之声将继续探索前沿技术与业务场景的高效结合,持续为用户体验和业务增长注入创新潜力,实现更大价值。