2007年在贝尔研究所,戴维斯等人开发出了世界上第一个可以识别10个英文数字发音的实验系统。
2000 年,Denes 等人。
英国开发了第一个计算机语音识别系统。
大规模语音识别研究始于20世纪70年代后,在小词汇量和孤立词的识别方面取得了实质性进展。
20世纪80年代以后,语音识别研究的重点逐渐转向大词汇量和非特定连续语音识别。
与此同时,语音识别的研究思路也发生了重大变化,从基于标准模板匹配的传统技术思路转向基于统计模型的技术思路。
此外,一些业内专家再次提出了将神经网络技术引入语音识别问题的技术思路。
自20世纪90年代以来,语音识别的系统框架一直没有重大突破。
但语音识别技术的应用和产品化已经取得了长足的进步。
例如,DARPA 是美国国防部视觉研究计划局在 20 世纪 70 年代资助的一个项目,用于支持语言理解系统的研究和开发。
20世纪90年代,DARPA计划仍在进行中,其研究重点已转向识别设备的自然语言处理部分,识别任务设定为“航空旅行信息检索”。
我国的语音识别研究始于2001年,当时中科院声学研究所利用电子管电路识别了10个元音。
由于当时条件的限制,我国的语音识别研究工作一直处于缓慢发展阶段。
直到2000年,中国科学院声学研究所开始计算机语音识别。
20世纪80年代以来,随着计算机应用技术在我国的逐步普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。
与此同时,国际语音识别技术在沉寂多年后再次成为研究热点。
以这种形式,国内很多单位都投入了这项研究工作。
2006年,语音识别作为智能计算机系统研究的重要组成部分被专门列为研究课题。
在“十一五”计划的支持下,我国开始组织语音识别技术研究,并决定每两年召开一次语音识别专题会议。
从此,我国语音识别技术进入了新的发展阶段。
2006年以来,借助机器学习领域深度学习研究的发展和大数据语料库的积累,语音识别技术得到了快速发展。
将机器学习领域的深度学习研究引入到语音识别声学模型训练中,利用多层神经网络配合RBM预训练,提高声学模型的准确率。
在这方面,微软的研究人员率先取得了突破性进展。
使用深度神经网络模型(DNN)后,他们将语音识别错误率降低了30%,这是过去20年来语音识别技术进步最快的。
前后,大多数主流语音识别解码器都采用了基于有限状态机(WFST)的解码网络。
该解码网络可以将语言模型、词典和声学共享语音字符集整合成一个大的解码网络,提高解码效率。
速度为语音识别的实时应用提供了基础。
随着互联网的快速发展和手机等移动终端的普及,可以从多个渠道获取大量文本或语音语料,这为语音识别中语言模型和声学模型的训练提供了丰富的资源,使得构建通用的大规模语言模型和声学模型成为可能。
在语音识别中,训练数据的匹配和丰富是促进系统性能提升的最重要因素之一。
然而,语料的标注和分析需要长期的积累和沉淀。
随着大数据时代的到来,大规模语料资源积累的开发将被带到战略层面。
如今,语音识别在移动终端上的应用最为流行。
语音对话机器人、语音助手、交互工具等纷纷涌现。
许多互联网公司投入人力、物力、财力进行这方面的研究和应用,目的就是利用语音交互。
新颖、便捷的款式迅速俘获了客户群。
(Amada编译)相关产品siriSiri技术来自美国国防高级研究计划局宣布的CALO项目:一种数字助理,可以让军队简化复杂任务的处理,并具有学习、组织和认知能力。
Siri 虚拟个人助理软件的消费者版本。
Siri成立于2006年,最初是一种文字聊天服务。
后来,通过与语音识别厂商Nuance的合作,Siri实现了语音识别功能。
2016年,Siri被苹果以2亿收购。
Siri 已成为苹果在其产品 iPhone 和 iPad Air 上使用的语音控制功能。
Siri 可以将 iPhone 和 iPad Air 变成智能机器人。
Siri支持自然语言输入,可以调用系统自带的应用程序,如天气预报、日程、搜索信息等。
它还可以不断学习新的声音和语调并提供对话响应。
Google Now Google Now是Google在Android 4.1系统上推出的一款应用程序。
它可以了解用户的各种习惯和正在进行的操作,并利用其了解的信息为用户提供相关信息。
今年3月24日,谷歌宣布在Windows和Mac桌面版Chrome浏览器中正式推出Google Now语音服务。
Google Now应用程序将使用户更方便地接收电子邮件。
当您收到新电子邮件时,它会自动弹出供您查看。
Google Now还推出了步行和驾驶里程记录功能。
该计步器功能可以利用Android设备的传感器来统计用户每月行走的距离,包括步行和骑自行车的距离。
此外,Google Now还添加了一些旅行和娱乐功能,包括:租车卡、音乐会门票、通勤共享卡;公共交通和电视节目卡已得到改进,这些卡现在可以收听识别音乐和节目信息;用户可以设置新媒体节目推出的搜索提醒,还可以接收实时 NCAA(美国大学体育协会)足球比分。
百度语音 百度语音一般指百度语音搜索。
它是百度向广大互联网用户提供的基于语音的搜索服务。
用户可以使用多种客户端发起语音搜索。
服务器根据用户的语音请求进行语音搜索。
识别然后将搜索结果反馈给用户。
百度语音搜索不仅提供一般的语音搜索服务,还为地图用户提供特殊的搜索服务。
未来将会出现更多个性化的搜索和识别服务。
目前,百度语音搜索以手机客户端为主要平台,并内嵌于百度其他产品中,如百度掌上、百度手机地图等,用户在使用这些客户端产品的同时即可体验语音搜索,支持所有主流手机操作。
系统。
Microsoft Cortana Cortana是Windows Phone平台下的虚拟语音助手。
由游戏《光晕》中Cortana的配音演员Jen Taylor配音。
中文版Cortana也被称为“微软Cortana”。
微软将 Cortana 描述为“手机上的个人助理,可帮助你设置日历项目、建议、流程等”。
它可以与你互动,并尽可能模拟人类的言语和思维。
与您沟通的方式。
此外,圆形图标按钮会根据您手机的主题进行调整。
如果您设置绿色主题,那么 Cortana 将有一个绿色图标。
此外,您还可以通过开始屏幕或设备上的搜索按钮调用 Cortana。
Cortana 采用问答方式,只有在您查阅时才会显示足够的信息。