语音对于人机交互的重要性是毋庸置疑的。
国内外企业在语音识别的速度、准确性和多语言方面不断创新。
但当机器面对有口音的人时,它似乎就没那么敏感了:不仅会注意力不集中、反应缓慢,甚至会变成一个独立的个体,没有任何反应。
如何解决口音识别问题,成为下一阶段智能语音竞争的焦点。
然而,这并不能仅仅通过简单地增加语料库来改善。
幸运的是,一些公司已经开始通过构建新的语音模型来解决口音问题。
。
自从 IBM 的 Shoebox 和 Worlds of Wonders 的 Julie Doll 出现以来,语音识别技术已经取得了长足的进步。
甚至有报道称,Google Assistant 到今年年底将支持 30 多种语言。
此外,高通还开发了一款语音识别设备,可以识别单词和短语,准确率高达95%。
微软也不甘示弱。
其呼叫中心解决方案(智能语音客服)比人工呼叫服务更准确、更高效。
不过,需要注意的是,虽然语音识别技术在机器学习的支持下取得了长足的进步,但目前的语音识别系统仍然不够完善。
例如,不同地区的口音就赋予了这项技术很强的“地域歧视”。
一般情况下,口音对于人类来说并不是什么大问题,有时还能让人感受到一种异国的魅力,但对于机器来说,这是一个难以跨越的鸿沟,在其发展过程中可能会面临。
最大的挑战。
研究表明,口音是语音识别技术的挑战之一。
近日,《华盛顿邮报》与 Globalme 和 Pulse Labs 两家语言研究公司合作,对搭载语音识别技术的智能音箱设备的口音问题进行了研究。
研究范围包括近代美国的人。
对20个城市100多名参与者发出的数千条语音命令的结果表明,这些系统理解不同地区人们语言的能力存在显着差异。
例如,Google Home 智能音箱识别西海岸口音的准确度比南方口音高 3%;而亚马逊的语音助手 Alexa 在识别中西部口音方面的准确度比东海岸口音低 2%。
但面临最大问题的是非母语口音的人:在一项研究中,将 Alexa 识别的内容与测试组实际所说的内容进行比较,结果显示错误率高达 30%。
此外,当母语是西班牙语和中文的人说英语时,无论是Google Home还是Amazon Echo,其识别率都是最低的。
要知道,拉丁裔和华人是美国的两大移民群体。
。
尽管这项研究是非正式的并且有一定的局限性,但结果表明口音仍然是语音识别技术面临的主要挑战之一。
对此,亚马逊在声明中表示,“随着越来越多的不同口音的人与 Alexa 进行交流,Alexa 的理解能力将会提高。
”同时,谷歌还表示,“我们在扩展数据集的同时,将继续改进Google Home的语音识别能力。
”事实上,不仅是亚马逊Echo和Google Home,还有微软Cortana而采用率较低的苹果Siri则需要及时改进自身的语音识别能力。
技术以满足用户的需求,同时扩大其在全球范围内的影响力。
即使增加语料库,也无法解决口音识别问题。
随着人工智能的发展,语音已经成为人类与计算机交互的核心方式之一,因此即使是极小的理解偏差也可能意味着巨大的障碍。
换句话说,这种语言差异可能会给现代技术的那些基础系统带来潜在的隐患。
毕竟,除了厨房、客厅之外,智能音箱还承担着用户工作场所、学校、银行、医院、酒店等的职责,它们的职责越来越重要。
除了控制设备之外,他们还需要传递信息并完成一些预订和购物任务。
为了提高语音助手的口音识别能力,亚马逊、谷歌等公司正在投入资源来训练和测试新语言和口音的系统,包括创建游戏来鼓励人们用不同地区的方言交谈。
IBM 和微软等公司将使用 Switchboard 语料库来降低语音助手的错误率。
但事实证明,该语料库并不能完全解决语音助手的口音识别问题。
对此,埃森哲全球责任AI主管Rumman Chowdhury表示,“数据是混乱的,因为数据反映了人性。
这就是算法最擅长的:发现人类行为模式。
”算法的这种情况称为“算法偏差”,用来反映机器学习模型对数据或设计产生偏差的程度。
例如,现在有许多报告表明面部识别技术(尤其是亚马逊 AWS 的图像识别技术 Rekognition)很容易出现偏差。
此外,算法偏差还出现在其他领域,例如预测被告未来是否会犯罪以及谷歌新闻等应用程序背后的内容推荐算法。
构建语音识别模型,提高方言识别率。
尽管许多巨头都提出了算法偏差的解决方案,例如微软、IBM、Facebook、高通和埃森哲等都开发了自动化工具来检测AI算法中的偏差。
然而,很少有公司针对语音识别技术面临的口音问题提出具体的解决方案。
Speechmatics 和 Nuance 是少数。
Speechmetrics 是一家专注于企业语音识别软件的剑桥技术公司,12 年前开始了一项雄心勃勃的计划,旨在开发一种比市场上任何产品都更准确、更全面的语言包。
据了解,在研究之初,该公司的主要工作是统计语言建模和循环神经网络,并利用其开发了可以处理记忆输出序列的机器学习模型。
2017 年,Speechmetrics 利用 1GB 语料库加速了统计语言建模的进展,到 2020 年,它与卡塔尔计算研究所 (QCRI) 合作开发阿拉伯语文本转换服务。
可以说,这是公司的成果之一。
里程碑式的进展。
今年7月,该公司又取得突破——成功研发了语音识别系统“全球英语”,包含来自全球40多个国家的数千小时语音数据和数百亿单词,可支持“所有语言”。
主要“英语口音语音到文本的转换”。
此外,该系统建立在 Speechmatic 的自动语言学家 (Automatic Linguist) 之上,这是一个人工智能框架,可通过利用已知语言中识别的模式来学习新语言的语言基础。
在特定口音测试中,Global English 的表现优于 Google 的 Cloud Speech API 和 IBM Cloud 中的英语语言包。
Speechmatic 声称,在高端,该系统的准确度比其他产品高 23% 至 55%。
但 Speechmatics 并不是唯一一家寻求解决口音识别问题的公司。
总部位于马萨诸塞州的 Nuance 表示,它正在使用多种方法来确保其语音识别模型能够以相同的准确性识别大约 80 种语言。
例如,在其英语语音识别模型中,该公司收集了 20 个方言特定区域的语音和文本数据,包括每种方言的独特单词及其发音。
因此,Nuance 的语音识别系统可以识别“希思罗”一词的 52 种不同变体。
Nuance的语音识别系统最近也得到了很大的改进。
较新版本的 Dragon 是该公司发布的定制语音转文本软件套件,它使用机器学习模型,可以根据用户的口音在几种不同的方言模型之间自动切换。
此外,与不带自动切换功能的旧版本相比,新版本识别西班牙口音英语的准确率提高了22.5%,识别南美方言的准确率提高了16.5%,识别带西班牙口音的英语的准确率提高了16.5%。
东南亚英语口音准确率提高了 17.4%。
事实上,研究人员很早就发现了语音识别中的口音问题。
对此,语言学家和AI工程师表示,非母语通常很难训练,因为语言之间的模式需要以多种不同的方式进行切换。
同时,语境也很重要,即使是细微的差异也会改变双方对谈话的反应。
但可以肯定的是,语音数据缺乏多样性最终可能会在不经意间导致“地域歧视”的发生。
也就是说,语料库中语音样本的数量和多样性越高,生成的模型就越准确——至少在理论上是这样。
当然,这不仅仅是美国企业需要解决的问题。
百度硅谷办事处的高级研究员格雷戈里·迪亚莫斯(Gregory Diamos)表示,该公司面临着开发能够理解许多中国地区方言的人工智能的挑战。
此外,许多工程师表示,对于试图构建不仅可以回答问题而且可以进行自然对话的软件的公司来说,口音是最严峻的挑战之一。
今年5月,谷歌推出了名为Duplex的系统,可以用逼真的语音和语调在手机上进行餐厅预订。
整个过程“说话不顺畅”,因为中间有“嗯”、“呃”等声调。
单词。
在某种程度上,这样的技术让人感觉这台机器在听我说话。
一些用户表示,他们似乎陷入了灰色地带。
虽然能听懂,但似乎与机器人格格不入。
据市场研究公司Canalys预测,到2020年,全球智能音箱销量将接近1亿台,而到2020年,约55%的美国家庭将拥有智能语音系统。
小智君(ID:Aiobservation)表示,通过学习大量的声音数据及其语音模式,了解不同单词、短语和声音之间的清晰联系,人工智能可以更好地理解不同的口音,提高识别能力。
。
但不要指望会出现“银弹”。
毕竟,按照目前的技术发展,我们并不能指望很快就能开发出一种精度极高、可以适用于所有用户语言的语音识别系统。
如今,足以满足正在使用的用户的口音需求。