自从深度学习开始流行并广泛应用于语音识别后,字幕中的单词错误率急剧下降。尽管如此,语音识别还没有达到人类水平,它仍然存在一些小故障。承认这些然后采取措施解决它们对于语音识别的进步至关重要。这是从可以识别某些人的ASR到可以随时识别任何人的ASR的唯一方法。在最近的Switchboard语音识别基准测试中,单词错误率得到了改善。Switchboard集实际上是在2000年收集的,它包含两个随机母语为英语的人之间的40次电话交谈。可以说我们在会话语音识别上已经达到了“人”的水平,但只是在Switchboard上。这个结果就像在一个晴天在一个城市里测试一辆只有一个人的自动驾驶汽车。这一领域最近的进展令人震惊,但“人类”表现这个词仍然过于宽泛。以下是一些仍需改进的地方。口音和噪音语音识别中最明显的缺陷之一是处理口音和背景噪音。最直接的原因是大部分训练数据由具有高信噪比的美国口音英语组成。然而,更多的训练数据本身可能并不能解决这个问题。在现实生活中,也有很多方言和口音。因此,使用标记数据来处理所有情况是不可行的。构建高质量的语音识别器,转录超过5,000小时的音频是否仅适用于以英语为母语的人?将转录器与百度的深度语音识别系统DeepSpeech2进行比较表明,它在转录非美国口音时效果更好哎呀。可能是由于美国在转录方面的偏见。在背景噪声存在的情况下,行驶中的汽车信噪比低至5dB的情况并不少见。在这种环境下,人们也能很好地听到对方的声音。另一方面,语音识别器在噪声方面的性能下降得更快。在上图中,可以清楚地看到人为错误率和模型错误率之间的差距,从低SNR到高SNR急剧上升。语义错误在语音识别系统中,单词错误率通常不是实际目标,语义错误率才是我们关注的重点。因为语义正确与否,关系到别人的话的理解程度。语义错误的一个示例是,如果有人说“让我们在星期二见面”,但语音识别器将其识别为“让我们今天见面”。这是单词错误但没有语义错误,当然情况也可以反过来。使用错误率作为代理服务时必须谨慎。先举一个最坏的例子来说明原因。5%的回复可能相当于每20个单词中漏掉一个单词。所以,如果一个句子只有20个词,那么这个句子的错误率可能就是100%。将模型与人类进行比较时,重要的是要检查错误的性质,而不是仅仅将答案视为某个数字。根据经验,人类转录比语音识别器产生的语义错误更少。微软的研究人员最近将人类转录与其人类语言识别器所犯的错误进行了比较,他们发现的一个差异是该模型将“uh”与“uhhuh”混淆了。这两个词具有完全不同的语义。模型和人类都会犯许多相同类型的错误。单通道、多扬声器Switchboard会话任务也更容易,因为每个扬声器都是使用单独的麦克风录制的。同一音频流中的多个扬声器不会重叠。另一方面,人类可以很好地理解多个说话者的对话内容,有时是同时进行。一个好的会话语音识别器必须能够根据谁在说话(diarisation)来分割音频。它还应该能够理解使用重叠扬声器的音频(源分离)。这是可能的,而不需要为每个演讲者都配备一个麦克风,这样对话式的声音就可以在任何位置发挥作用。域重音和背景噪声的变化是语音识别器的两个重要因素,这里还有一些:混响声音环境来自用于音频和压缩采样率的硬件人工制品的变化大多数人甚至都不会注意到mp3和mp3之间的区别普通的wav文件。语音识别器在声称人类表现之前还需要对这些变异来源的强有力支持。在上下文中,您会发现像“switchplate”这样的词的错误率实际上可能很高,如果您正在与朋友交谈并且他们每20个词中就有1个误解,那么您将很难沟通。原因之一是评估是在上下文中进行的。在现实生活中,我们使用许多其他线索,结合上下文来帮助我们理解某人在说什么。但是语音识别器无法识别这些:对话历史和讨论的主题关于我们正在与之交谈的人的视觉线索,包括表情和嘴唇动作说话人的背景因此它可以识别您朋友的名字。地图产品中的语音搜索可以使用地理定位来缩小您可能想要浏览的兴趣点的范围。使用此类信号时,ASR系统的准确性肯定会提高。部署在部署新算法时,可以考虑延迟和算法,因为增加计算量的算法通常会增加延迟,但为了简单起见,我们接下来将单独讨论。延迟:转录完成后,低延迟很常见,会显着影响用户体验。因此,几十毫秒内的延迟要求对于ASR系统来说并不少见。虽然这听起来很极端,但这通常是一系列昂贵计算的第一步,因此必须谨慎行事。迄今为止,将未来信息有效地整合到语音识别中的好方法仍然是一个有待讨论的悬而未决的问题。计算:记录话语所需的计算能力是一种经济约束。我们必须考虑到语音识别器的每一次准确度改进。如果改进不符合经济门槛,则无法部署。一个从未部署过的持续改进的典型例子是集成。错误减少1%或2%可能相当于计算量增加2-8倍,现代RNN语言模型通常也属于此类。事实上,不建议以较大的计算代价来提高准确率,已经存在“先慢但准,后提速”的工作模式。但关键是,在它改进得足够快之前,它是不可用的。未来五年语音识别领域存在许多开放和具有挑战性的问题。其中包括:扩展新领域、重音和远场、低信噪比将更多上下文纳入识别过程Diarisation和源分离超低延迟和高效推理有望在未来五年内在这些领域取得进展
