近日,在刚刚结束的“暴雪挑战赛”语音合成大赛中,来自中国的新锐团队搜狗,首次参赛,一举击败多名国际顶尖科研组织,在可懂度和言语停顿两项任务中取得第一名。
这充分体现了搜狗在语音技术领域的领先地位,凸显了搜狗在人工智能行业积累的成果。
语音合成技术挑战人工智能的表达能力。
暴雪挑战赛(以下简称BC)是语音合成领域最权威、最广泛的国际评测竞赛。
本次大赛是由美国卡内基梅隆大学和日本名古屋工业大学联合发起的开放式语音合成技术评测平台。
加强世界各地语音合成研究机构之间的交流与沟通,推广语音合成技术。
深入发展。
暴雪挑战赛于2007年发起,作为全球规模最大、最具影响力的语音合成竞赛(以英语为主),每年吸引众多世界一流科研单位和一流企业参加,其中包括CMU(卡内基梅隆大学)美国大学)、剑桥大学(英国剑桥大学)、爱丁堡大学(英国爱丁堡大学)、Nitech(日本名古屋工业大学)、科大讯飞、中国科学院自动化研究所等顶尖专家国内外语音合成领域。
语音合成也称为文本转语音技术(简称TTS),可以将任何文本转换成清晰、自然、富有表现力、可以朗读的声音,相当于在机器上安装了一个人工嘴。
它涉及声学、语言学、数字信号处理、计算机科学等多个学科,是信息处理领域的前沿技术。
已被国内外各大科技公司研究,广泛应用于智能客服、新闻、广播、语音导航等诸多场景中。
技术先行,搜狗引领AI前沿赛道。
从某种意义上说,谁在语音合成技术上占据优势,谁就有可能最先完成AI应用的突破。
由于今年的BC数据与去年完全相同(去年只提供了部分),不少企业和研究机构连续多年参加比赛,拥有丰富的数据积累和实践经验。
搜狗作为新兴队伍首次参加比赛。
在时间紧迫、对手强劲的困难条件下,凭借扎实的技术积累,最终在可懂度和语音停顿两项任务中名列第一。
搜狗之所以能够获胜,是因为与合成技术上的持续投入和积累密不可分。
图1 搜狗语音合成系统 我们知道,人工智能离不开数据训练。
搜狗充分利用大数据语音资源进行模型训练,保证输出声学特征的稳定性。
由于本次比赛使用的声音库体积小、表现力强,搜狗还对合成系统的各个模块(见图1)进行了针对性的优化,包括特征选择、前端文本分析、时长模型和声学等。
模型。
进一步提高合成语音的整体效果。
同时采用先进的WaveNet(见下图)波形建模技术替代传统声码器,使得合成语音音质更接近原始录音。