,贝??尔实验室建造了一台6英尺高的自动数字识别机“奥黛丽”,它可以识别数字0到9的发音,准确率超过90%。
而且对于熟人来说准确率较高,而对于陌生人来说准确率较低。
2008年,普林斯顿大学RCA实验室开发了单音节词识别系统,可以识别特定人的10个单音节词中包含的不同音节。
2006年,麻省理工学院的林肯实验室开发了一种针对十个元音的非特定于人的语音识别系统。
20世纪60年代初,东京无线电实验室、京都大学和NEC实验室在语音识别领域取得了开拓性进展,各自相继生产出了能够进行语音识别的专用硬件。
2016年世博会上,IBM向世界展示了其用于数字语音识别的“鞋盒识别器”。
20世纪70年代,语音识别研究取得突破性进展,研究重点仍然是孤立词的语音识别。
2017年,美国国防部研究院(Darpa)赞助了一项为期五年的语音理解研究项目,希望增加上面识别的单词数量。
参与该项目的公司和学术机构包括IBM、卡内基梅隆大学(CMU)和斯坦福研究院。
就这样,Harpy在CMU诞生了。
与以前的识别器不同,Harpy 可以识别整个句子。
20世纪80年代,NEC提出了二阶动态规划算法,贝尔实验室提出了层次构造算法,帧同步层次构造算法。
同时,对连接词和大词汇量连续语音的识别也得到了很大的发展。
统计模型已逐渐取代模板匹配方法,隐马尔可夫模型(HMM)已成为语音识别系统的基本模型。
20 世纪 80 年代中期,IBM 创建了 Tangora,这是一款能够处理大约 0 个单词的声控打字机。
IBM的研究是基于隐马尔可夫模型(hidden Markov model),在信号处理技术中加入统计信息。
这种方法使得在给定音素的情况下预测下一个因素成为可能。
2016年,IBM发布的语音识别系统在词汇层面实现了95%的识别率。
2008年,AT&T贝尔实验室构建了第一个智能麦克风系统,用于研究大型室内空间中的声源位置跟踪问题。
年初,国家开始实施该计划后,国家智能计算机学科专家组每两年设立一个语音识别研究项目。
2016年12月,李开复研发出全球首个“非特定人连续语音识别系统”。
2017年,卡内基梅隆大学结合矢量量化技术(VQ),利用VQ/HMM方法开发出全球首个非特定NPC词汇连续语音识别系统SPHINX,可识别包含10个单词的连续句子。
同年,清华大学与中科院声学研究所在大词典汉语听写机研制方面取得突破性进展。
2017年,盛龙发布了旗下首款消费级语音识别产品Dragon Dictate,售价高达1美元。
2007年,IBM推出了第一个听写系统,名为“IBM Speech Server Series (ISSS)”。
2006年开发的Sphinx-II在同年美国国防部先进技术研究计划局(DARPA)资助的语音基准评估中取得了最高的识别准确率。
这主要是由于它使用了高斯混合和马尔可夫状态水平。
螺栓连接参数平衡了可训练性和效率。
2006年,Windows 95首次配备了Microsoft SAPI,使应用程序开发人员能够在Windows上创建语音程序。
2001 年,AT&T 研究中心的戴夫·拉德 (Dave Ladd)、克里斯·拉姆明 (Chris Ramming)、肯·雷霍 (Ken Rehor) 和柯特·塔基 (Curt Tuckey) 在集思广益地讨论互联网将如何改变电话应用程序时,他们提出了一些新想法:为什么不设计一个可以运行语音标记语言的系统呢?语音浏览器用于向数百万部手机提供互联网内容和服务。
于是,AT&T启动了“电话网络项目”。
之后,Chris 留在了 AT&T,Ken 去了朗讯,Dave 和 Curt 去了摩托罗拉。
(年初,他们在各自的公司在语音标记语言规范方面迈出了实质性的第一步。
由于密切的友谊,这些公司合作建立了 VoiceXML 论坛组织,IBM 也作为创始公司加入进来吧。
)第一个语音听写产品IBM ViaVoice于2008年问世。
你只需对着麦克风喊出你想要输入的字符,它就会自动判断并帮助你输入文字。
次年,ViaVoice’98开发出来,这是一个可以识别上海话、粤语、四川话等当地口音的语音识别系统。
2009年,微软在北京成立亚洲研究院,将中文语音识别作为重点研究方向之一。
2007年,比尔·盖茨在消费电子展上展示了一款代号为MiPad的原型机。
Mipad 展示了支持语音的多模式移动设备的愿景。
2017年,中科院自动化所及其下属模型科技公司推出了“天语”中文语音系列产品——Pattek ASR,结束了国外公司在该领域的垄断。
2006年,美国国防部高级研究计划局(DARPA)首先启动了EARS项目和TIDES项目;由于 EARS 项目过于敏感,两个项目被合并为“全球自治语言开发,GALE”(Global Autonomous Language Exploitation,GALE)。
GALE的目标是应用计算机软件技术来获取、转换、分析和翻译大量的多语言语音和文本。
2006年,Hinton提出深度置信网络(DBN),推动了深度神经网络(DNN)研究的复兴,掀起了深度学习的热潮。
2006年,Hinton和他的学生D. Mohamed将深度神经网络应用于语音声学建模,并在小词汇量连续语音识别数据库TIMIT上取得了成功。
2017年,微软Win7集成了语音功能。
Google Vioce Action 支持语音操作和搜索。
年初,微软的DNN模型在语音搜索任务中取得了成功。
同年,科大讯飞首次成功将DNN应用于中文语音识别领域,并通过语音云平台提供给开发者。
2018年10月,苹果iPhone 4S发布,个人移动助理Siri诞生,人机交互开启新篇章。
2016年,科大讯飞在语音合成领域首创RBM技术。
2017年,谷歌的智能语音助手Google Now出现在大家面前,并在Android 4.1和Nexus手机上使用。
2016年,谷歌发布了Google Glass,苹果也加大了iWatch的研发投入,让可穿戴语音交互设备成为新的热门话题。
同年,科大讯飞在语言识别领域首创BN-ivec技术。
2017年,Spirit推出了首款可以实时转录的语音输入板。
2019年11月,亚马逊智能音箱Echo发布。
2017年,Spirit推出了首款可以智能打断和纠正的语音技术。
2019年,Google Assistant随Google Home正式亮相,抢占亚马逊智能音箱市场。
(亚马逊Echo的智能音箱市场份额在2018年达到峰值88%。
)同年,科大讯飞推出DFCNN(深度全卷积神经网络)语音识别系统。
同年11月,科大讯飞、搜狗、百度召开发布会,宣布语音识别准确率已达到“97%”。
今年3月,IBM将LSTM模型和WaveNet语言模型与3个强大的声学模型结合起来。
“深度学习应用技术的集中拓展,最终实现了5.5%错误率的突破。
”这相当于去年 5 月的 6.9%。
今年8月,微软发布了一个新的里程碑。
通过改进微软语音识别系统中基于神经网络的听觉和语言模型,与去年相比,错误率降低了约12%,单词错误率为5.1%,号称超过了专业速记员。
对应的数字是去年10月的5.9%,号称超过了人类。
今年12月,谷歌发布了全新的端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),将单词错误率降低至5.6%。
与强大的旧系统相比,性能提高了 16%。
市场分析公司Canalys在1月份发布报告,预测2020年将是智能音箱普及的“决定性的一年”。
与2018年全年出货量刚刚超过1万台相比,预计2019年智能音箱全球出货量将达到1万台。
中投咨询发布的《-年中国智能语音行业深度调研及投资前景预测报告》显示,我国智能语音市场整体处于起步期,智能汽车、智能家居、智能穿戴等垂直领域正处于爆发前夜。
文章引用[1]李晓雪.基于麦克风阵列的语音增强与识别研究[D].浙江大学,. [2] 倪崇甲,刘文举,徐波。
汉语大词汇量连续语音识别系统研究进展[J].中国信息科学学报,23(1):-。