StudyfindshigherrorratesincommercialspeechrecognitionsystemsSouthTechnicalUniversity、WroclawUniversityofTechnology和初创公司Avaya的研究人员正在进行的一项研究的主要发现。该研究在内部创建的数据集上对商业语音识别模型进行基准测试。共同作者声称,单词错误率(WER)是一种常见的语音识别性能指标,明显高于报告的最佳结果,这可能表明自然语言处理(NLP)领域还有更多问题需要克服。据了解,ASR已经广泛应用于电话会议、邮件、智能设备等诸多场景。在ASR模型的综合benchmark中,标准语料的WER只有2%~3%,正是这个统计数据遭到了上述作者的质疑。他们声称,大多数ASR交互场景都发生在“类似聊天机器人”的环境中,说话者经常将命令缩减为简短、紧凑的句子,因为他们意识到自己正在与聊天机器人交互。话,而不是正常的自然对话。作者根据来自1595个供应商和1261个客户的50个呼叫中心对话的数据集评估了几个ASR系统。它的典型长度为8.5小时,其中2.2小时为对话。通过测试,笔者发现ASR系统的错误率基本在15%以下,与基准测试中的2%相反。在基于保险、通信、预订等金融行业的语料库中,笔者发现WER测试结果高达23.31%。其中,booking和communication的错误率最高,可能是因为对话涉及到具体的日期、时间、订单金额、地点、产品和公司名称等,但在所有测试域中其错误率均高于13.73%。研究人员将此归因于领域适应性问题——使用单一语料库的基准测试,例如Librispeech(1,000小时的英语有声读物录音)、WSJ(新闻中口述的对话)和Switchboard(电话对话)可能太简单而无法真正挑战ASR系统的可靠性。并且,虽然他们试图模仿真实的、自发的对话,但它们具有内在的局限性,例如需要配音演员,就适当的话题进行脚本/半脚本对话,并且由于配音演员的存在,几乎不会导致发音问题需要考虑性别和母语因素。作为补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,以更好地将其与ASR系统的现实应用场景对齐,他们还呼吁更具包容性的声学模型、更广泛的方言语料库、这些变化将促进音频信号处理的技术改进。因此,这些问题并非不可克服。“学术界和工业界应该认真思考创建高质量测试数据集的可能性。我们认为过于乐观的ASR准确性会损害NLP领域下游应用的发展。”研究人员得出结论。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。
