自 IBM 的 Shoebox 和 Worlds of Wonder 的 Julie 娃娃发布以来,语音识别技术一直在不断发展。
到今年年底,Google Assistant 支持 30 多种不同的语言。
高通还开发了语音识别系统,可以识别单词和短语,准确率高达 95%。
此外,微软的智能语音客服比人工呼叫服务更加准确、高效。
然而,尽管机器学习在语音识别技术的发展中取得了快速进步,但当今的语音识别系统仍然不够完美。
最严重的问题是地域歧视。
《华盛顿邮报》最近进行的一项研究表明,谷歌和亚马逊开发的流行智能语音助手在识别非美国口音方面的准确度比美国口音低 30%。
IBM 和微软等公司将使用 Switchboard 语料库来降低语音助手的错误率。
但事实证明,该语料库并不能完全解决语音助手的口音识别问题。
“数据是混乱的,因为数据反映了人性,”埃森哲全球人工智能负责人鲁曼乔杜里(Rumman Chowdhury)说。
“这就是算法最擅长的事情:寻找人类行为的模式。
”算法偏差意味着机器学习模型对数据或设计存在偏见。
程度。
许多新闻报道都对面部识别系统存在偏见,尤其是亚马逊网络服务的图像识别 Rekognition。
算法偏见也出现在其他领域,例如预测被告未来是否会犯罪的自动化系统以及谷歌新闻等应用程序背后的内容推荐算法。
微软和 IBM、高通和 Facebook 等人工智能行业领导者已经开发了自动化工具来检测和减少人工智能算法中的偏差,但很少有人提出针对口音识别问题的具体解决方案。
只有两家公司真正提出了解决方案。
一个是 Speechmatics,另一个是 Nuance。
解决口音差距 Speechmetrics 是一家专注于企业语音识别软件的剑桥科技公司,12 年前开始了一项雄心勃勃的计划,旨在开发比市场上任何产品都更准确、更全面的语音识别系统。
该公司开始研究统计语言模型和循环神经网络。
它开发了一种可以处理内存输出序列的机器学习模型。
在 2017 年,它迈出了利用千兆字节语料库加速统计语言建模工作的第一步。
2017 年,它达到了另一个里程碑:与卡塔尔计算研究所 (QCRI) 合作开发阿拉伯语文本转换服务。
“我们已经确定,我们需要开发一种语音识别系统,可以在一种模式下用于所有语言,没有口音问题,并且可以以与转录苏格兰口音相同的准确性识别澳大利亚口音。
” Speechmatics 首席执行官 Benedikt von Thüngen 表示。
他们在今年7月成功开发了这样的语音识别系统Global English。
它拥有来自 40 多个国家的数千小时的语音数据和数百亿个单词,支持所有英语口音的语音转文本功能。
此外,Global English的建立也离不开Speechmatic的Automatic Linguist,这是一个人工智能框架,可以利用已知语言中识别的模式来学习新语言的语言基础。
“假设你想一边与一个美国人交谈,另一边与一个澳大利亚人交谈。
而这个美国人曾经住在加拿大,所以他有加拿大口音。
此时,大多数语音识别系统将很难识别这种不同的语气。
语言有口音,但我们的语音识别系统根本不用担心这个问题。
”Speechmatics 产品副总裁 Ian Firth 在接受采访时说道。
在测试中,Global English 在识别特定口音方面比 Google 的 Cloud Speech API 和 IBM 的 Cloud 表现更好。
Thüngen 表示,在高端产品中,它的准确度比其他产品高 23% 至 55%。
Speechmatics 并不是唯一一家寻求解决口音识别问题的公司。
总部位于马萨诸塞州伯灵顿的 Nuance 表示,将使用多种方法来确保其语音识别系统能够以同样的高精度识别近 80 种语言。
在其英国语言模型中,它收集了 20 个方言特定区域的语音和文本数据,包括每种方言特有的单词(例如使用“cob”一词专门指代面包卷)及其发音。
因此,这套Nuance语音识别系统可以识别“希思罗”的52种不同表达方式。
如今,Nuance语音识别系统有了新的进展。
Dragon的更新版本是Nuance开发的定制语音转文本软件包,具有机器学习模型,可以根据用户的口音在几种不同的方言之间自动切换。
与不具备自动方言切换功能的旧版本相比,新版语音识别系统在识别西班牙口音英语方面准确率提高了22.5%,在识别南美方言方面准确率提高了16.5%。
东南亚英语的准确率高出17.4%。
数据越多越好 归根结底,语音识别中的口音问题源于数据不足。
语料库的质量越高,语言模型越多样化,语音识别系统的准确率就越高,至少在理论上是这样。
《华盛顿邮报》的一项研究显示,Google Home 智能语音助手识别美国南部语言的准确度比美国西部低 3%。
另一方面,亚马逊的 Echo 在识别美国中西部地区使用的语言方面的准确度降低了 2%。
亚马逊发言人告诉《华盛顿邮报》,随着越来越多的用户用不同的口音说话,Alexa 的语音识别能力将继续提高。
此外,谷歌在一份声明中表示,他们将通过扩展数据库继续改进Google Assistant的语音识别技术。
随着越来越多的用户使用语音识别系统,他们的能力将进一步提高。
市场研究公司Canalys的数据显示,到2020年,全球将售出近1亿套智能语音系统。
而且,在此之前,约55%的美国家庭将拥有智能语音系统。
不要指望完全解决您的口音问题。
“以目前的技术发展,你无法开发出具有最高准确度并适用于全世界用户的语音识别系统,”Faith 说。
“你能做的最好的事情就是确保这些语音识别系统能够准确识别使用它们的人的口音。