得益于深度学习和人工神经网络的发展,语音识别在2016年取得了一系列的突破,其产品应用也越来越广泛成熟。语音识别作为语音交互领域极其重要的一环,一直是科技巨头们研究的重点,国内外涌现出一批优秀的创业公司。今年年初,机器之心发表了一篇来自ACM中文版的文章《深度 | 四十年的难题与荣耀——从历史视角看语音识别发展》。在文章中,微软首席语音科学家黄学东为我们深入解读了语音识别的历史和发展问题。长期以来,与机器对话一直是人机交互领域的梦想。语音识别作为一项非常基础的技术,在今年又得到了更大的发展。年内,机器之心走访了科大科大讯飞,接触了云知声、Speedy等初创公司,更在微软英语语音识别取得突破后,深入采访了微软的黄学东、于冬。前不久,在百度语音开发平台三周年主题活动上,我们还从百度首席科学家吴恩达那里了解了百度语音识别的发展。我们希望从《机器之心》一文中梳理出的蛛丝马迹,能够为语音识别下一步的发展提供一点启示。在本文中,我们将梳理2016年机器之心关注的语音识别领域的突破性研究,未来需要解决的问题,以及语音识别发展史上比较重要的时间点.1、2016年语音识别有哪些突破?这部分盘点了2016年机器之心关注的语音识别准确率的突破,主要涉及百度、IBM、微软等公司。基于这些突破,我们为语音识别技术的发展梳理出了一条路线。1、百度深度语音2的词组识别错字率降至3.7%。发生时间:2016年2月。2015年12月DeepSpeech2首次发布时,首席科学家吴恩达表示,其识别准确率已经超过GoogleSpeechAPI、wit.ai、微软的BingSpeech和苹果的Dictation至少10%。截至今年2月,DeepSpeech2的词组识别的词错率已经下降到3.7%。不久前,百度将DeepCNN应用到语音识别研究中,使用VGGNet,以及DeepCNNwithResidualconnections等结构,并结合LSTM和CTC的端到端语音识别技术,识别错误率降低超过10%(原始错误率的90%)。据百度语音技术部识别技术负责人、DeepSpeech中文研发负责人李贤刚博士介绍,百度正在努力推广DeepSpeech3,不排除此次研究会是一个DeepSpeech的核心组件三、技术改进的基础:1、端到端的深度学习方法;2.深度卷积神经网络技术(DeepCNN)应用于语音识别的声学建模,与基于长短期记忆单元(LSTM)和连接时间分类(CTC)相结合的端到端语音识别技术。2.IBMWatson对话式单词错误率低至6.9%。发生时间:2016年5月2015年,IBMWatson宣布了英语会话语音识别领域的重大里程碑:该系统在非常流行的评估基准Switchboard数据库单词错误率(WER)中取得了8%的成绩。今年5月,IBMWatson团队再次宣布,他们的系统在同一任务中创造了6.9%的单词错误率新纪录。技术改进的基础:声学和语言建模技术的改进3、微软新系统英语语音识别的单词错误率低至6.3%。发生时间:2016年9月,在行业标准Switchboard语音识别任务上,微软研究人员取得了6.3%的行业最低单词错误率(WER)。技术改进的基础:开发基于神经网络的声学和语言模型,几种声学模型的组合,以及利用ResNet进行语音识别。4、微软英文语音识别的单词错误率已经达到5.9%,与人类出现的时间相当:2016年10月,微软人工智能与研究部门的团队报告称,他们的语音识别系统达到了与人类发生时间相当的水平甚至低于专业速记员。单词错误率(WER)达到了5.9%。5.9%的错字率已经相当于人类速记同一对话的水平,这也是行业标准Switchboard语音识别任务中的最低记录。这一里程碑意味着计算机首次可以像人类一样识别对话中的单词。技术改进的基础:系统地使用卷积神经网络和LSTM神经网络,结合新的空间平滑方法(spatialsmoothingmethod)和lattice-freeMMIacoustictraining。虽然已经给出了精度突破的数值基准,但百度与微软和IBM(在总机上测试)有很大的不同。微软的研究更具学术性,是在标准数据库——口语数据库总机上完成的,只有2000小时。微软研究院的研究重点是基于总机数据库,语音识别最终能达到什么样的性能。据百度语音识别技术负责人李先刚介绍,他们的重点是让语音技术深入到每个人的日常应用中,他们使用了数万小时的数据。黄学东在接受机器之心专访时也表示,他们的语音识别系统没有BUG,因为在标准数据上能达到这样的水平,其实也体现了项目的完善程度。在各种突破的技术改进基础上,我们可以清晰地梳理出一条线:1、此前LSTM等模型已经成功应用于语音识别,今年的后续研究不断提升LSTM模型的效果.2.另一大进步是DeepCNN。DeepCNN比bidirectionalLSTM有一个优势(双向效果更好)——延迟。因此,在实时系统中,DeepCNN更倾向于使用BidirectionalLSTM。3、end-to-endlearning,就是百度首席科学家吴恩达在NIPS2016上提到的,比如在语音识别中,输入是语音,输出是文本。这是比较纯粹的端到端学习。但它也有缺点——需要足够大的训练集。图:吴恩达NIPS2016ppt目前这方面的研究工作主要集中在两类模型上。一类是CTC模型,包括约翰霍普金斯大学DanPovey博士从CTC发展而来的无晶格MMI;另一种是基于注意力的sequence-to-sequence模型。时至今日,它们的性能仍然比不上混合模型,训练的稳定性也差一些,但这些模型的潜力还是比较大的(参考机器之心对于冬老师的采访)。国内还有几家做语音识别的公司。这里简单介绍科大讯飞、搜狗、云声的语音识别系统。去年底,科大讯飞提出了以前馈顺序记忆网络(FSMN,Feed-forwardSequentialMemoryNetwork)为代表的新一代语音识别系统。今年,科大讯飞推出了全新的深度全卷积神经网络(DFCNN)语音识别框架,利用大量的卷积层直接对整句语音信号进行建模,以更好地表达语音的长期相关性。据介绍,该框架的性能比学术界和工业界最好的双向RNN语音识别系统的识别率高出15%以上。其结构图如下:iFLYTEKDFCNN结构图同时附上搜狗和云知声各自提供的语音识别系统的流程,供大家学习对比参考:语音识别系统流程:语音信号通过经过前端信号处理、端点检测等,逐帧提取语音特征。传统的特征类型包括MFCC、PLP、FBANK等特征。提取的特征被发送到解码器。在声学模型、语言模型和发音词典的联合指导下,找到最匹配的词序列,作为识别结果输出。搜狗CNN语音识别系统建模流程云知声语音识别系统二、难点与前沿方向在语音识别飞速发展的一年里,我们采访了黄学东、于冬等多位领域专家,不可避免地探讨了方向未来语音识别领域所面临的、挑战或问题。现整理如下,希望对大家接下来的语音识别研究有所帮助:一、语义理解黄学东认为,做好语音识别需要更好的语义理解,两者相辅相成。“人是很健壮的,当一个新话题来的时候,他可以通过对话和你交流,取得很好的效果。但是,机器对噪音的免疫力还不够,所以对于新的话题,他可以和你在对话中交流。能力相对比较强。”“差。最重要的一点是语音识别不理解你的语义。理解语义是人工智能需要克服的下一个难题,这也是我们团队正在花费大量时间和精力做的事情。”2.值得关注机器之心在此前对于冬的采访中指出了语音识别领域的几个前沿:在安静的环境和使用近距离麦克风的情况下,语音识别的识别率已经超过了实际阈值;但是在某些场景下效果不是很好,这是我们领域的前沿。现在我们重点关注几点:第一,在远场识别中是否可以进一步提高识别率,特别是在这种情况下人声干扰的问题。目前一般的远场识别的错误率是近场识别的两倍左右,所以在很多情况下语音识别系统并不令人满意。远场识别,至少目前还不能单纯靠后端模型增强来解决,现在大家的研究都集中在多通道信号处理(比如麦克风阵列)和后端处理相结合,从源头优化整个系统皮卡到识别系统,提升了整个系统的性能。此外,我们还在研究更好的识别算法。这个“更好”有几个方面:一个方面是能不能再简单点。目前的模型训练过程还是比较复杂,需要很多步骤。如果没有像HTK、Kaldi这样的开源软件和recipe,即使使用DNN大大降低了门槛,很多团队也需要很长时间才能搭建出一个OK的系统。由于开源软件和方法(包括CNTK等深度学习工具包),现在事情变得容易多了,但仍有进一步简化的空间。这方面有很多工作正在进行,包括如何避免对齐或字典。目前的研究主要基于端到端的方法,也就是去掉一些以前需要人工操作的步骤或者需要预处理的部分。目前的效果虽然无法超越传统混动系统,但已经接近混动系统的表现。另一方面,最近几年,大家已经从使用简单的DNN发展到LSTM、DeepCNN等相对复杂的模型。但在许多情况下,这些模型的表现不够好。所以一个研究方向就是找到一些特殊的网络结构,可以把我们想要的东西都放在模型里。我们之前做过一些实验。例如,当一个人在与另一个人交谈时,他总是会做出预测。这个预测包括很多东西,不仅包括你接下来要说的话,还包括你的口音。判断你接下来说什么,等等。我们试图将这些现象构建到模型中,以提高识别性能。许多研究人员也在朝着这个方向努力。另一个方向是快速自适应方法——即不需要人工干预的快速无监督自适应方法。虽然已经有一些自适应算法,但它们的自适应速度相对较慢,或者需要更多的数据。有没有办法做更快的适应?就好像你第一次和口音很重的人说话,一开始你可能听不懂,但两三句话之后你就能听懂了。大家也在寻找一种像这样的自适应方法,速度非常快,并且能保证良好的性能。从实用的角度来看,快速自适应非常重要。因为自适应在很多情况下确实可以提高识别率。3.梳理语音识别的历史这一部分我简单梳理了语音识别历史上的一些关键时间点。关于语音识别技术的详细研究史,可以参考前面提到的黄学东老师写的《四十年的难题与荣耀——从历史视角看语音识别发展》。1952年,贝尔实验室戴维斯等人开发出世界上第一个可以识别10个英文数字发音的实验系统,但它只能识别一个人的发音。1962年,IBM展示了Shoebox。鞋盒可以理解16个口语单词和0-9的英文数字。1969年,贝尔实验室的约翰·皮尔斯(JohnPierce)预测,成熟的语音识别在几十年内不会成为现实,因为它需要人工智能。1970年,普林斯顿大学的LennyBaum发明了隐马尔可夫模型(HiddenMarkovModel)。1970年代,卡内基梅隆大学开发出harpy语音识别系统,可以识别1011个单词,相当于一个3岁孩子的词汇量。语音识别在1980年代引入了隐马尔可夫模型。第一个消费级产品DragonDictate出现在1990年代,由国际语音识别公司Nuance发布。Siri.Inc由DagKittlaus和AdamCheyer于2007年创立。被苹果公司收购,2011年首次出现在iPhone4s上。2009年以来,随着机器学习领域深度学习研究的深入和大数据语料库的积累,语音识别技术得到突飞猛进的发展。2011年,微软率先取得突破。使用深度神经网络模型后,语音识别的错误率降低了30%。2015年,IBMWatson宣布了英语会话语音识别领域的一个重大里程碑:该系统在非常流行的基准Switchboard数据库上实现了8%的单词错误率(WER)。语音识别在这一年有了长足的进步,从算法到模型都有了质的变化。除了语音领域的其他研究(语音合成等),语音技术也逐渐进入工业、家庭机器人、通信、汽车导航等各个领域。当有一天,机器能够真正“听懂”人类语言并做出反应时,我们将迎来一个新时代。
