由MigüelJetté编译|由bluemin编辑|陈才贤近两年,自动语音识别(AutomaticSpeechRecognition,ASR)取得了商业上的成功一个重要的发展,指标之一是:多个基于神经网络的企业级ASR模型成功上市,如Alexa、Rev、AssemblyAI、ASAPP等。2016年,微软研究院发表论文,宣布他们的模型在拥有25年历史的“Switchboard”数据集上实现了人类水平的性能(以单词错误率衡量)。ASR的准确性仍在提高,在更多数据集和用例中达到了人类水平的表现。来源:AwniHannun的博文《语音识别未解决》随着ASR技术的识别准确率有了很大的提升,应用场景也越来越丰富,我们认为现在还不是ASR商用的高峰期。该领域的研究和市场应用尚待发掘。我们预计人工智能语音相关的研究和商业系统在未来十年将集中在以下五个领域:1.多语言ASR模型“在未来十年,我们将在生产环境中部署真正的多语言模型,使开发人员能够构建任何人都可以理解任何语言的应用程序,真正向世界释放语音识别的力量。”图片来源:“用于语音识别的无监督跨语言表示学习”,AlexisConneau等人,2020年。如今,商业ASR模型主要使用英语数据集进行训练,因此对英语输入具有更高的准确性。由于数据可用性和市场需求,学术界和工业界对英语的长期关注度更高。虽然法语、西班牙语、葡萄牙语、德语等热门商业语言的识别准确率尚可,但训练数据有限、ASR输出质量相对较低的语言明显存在长尾现象。此外,大多数业务系统都基于单一语言,无法适应许多社会典型的多语言场景。多语言可以采取背靠背语言的形式,例如双语国家的媒体节目。亚马逊最近通过集成语言识别(LID)和ASR的产品在解决这个问题方面取得了长足进步。相比之下,interlingualism(也称为语码转换)是个人使用的一种语言系统,可以将两种语言的单词和语法组合成同一个句子。这是学术界不断取得有趣进展的领域。正如自然语言处理领域采用多语言方法一样,我们将在未来十年看到ASR效仿。当我们学习如何利用新兴的端到端技术时,我们将训练可以跨多种语言迁移学习的大规模多语言模型。Meta的XLS-R就是一个很好的例子:在一次演示中,体验者可以在不指定语言的情况下说出21种语言中的任何一种,模型最终会翻译成英语。通过理解和应用语言之间的相似性,这些更智能的ASR系统将为低资源语言和混合语言用例实现高质量的ASR可用性,并将实现商业级应用。2.丰富的标准化输出对象“在未来十年,我们相信商业ASR系统将输出更丰富的转录对象,其中包含的不仅仅是简单的单词。此外,我们期望这种更丰富的输出将和其他标准机构一起,以便所有API都将返回类似构造的输出。这将进一步释放世界上每个人的语音应用程序的潜力。”尽管美国国家标准与技术研究院(NIST)在探索“丰富的转录”方面有着悠久的传统,但在将其纳入ASR输出的标准化和可扩展格式方面仍处于初步阶段。丰富转录的概念最初涉及大小写、标点符号和日记化,但在一定程度上扩展到说话者角色和一系列非语言语音事件。预期的创新包括转录来自不同说话者、不同情绪和其他副语言特征的重叠语音,以及一系列非语言甚至非人类的语音场景和事件,以及基于文本或语言多样性的信息。田中等人。描绘一个用户可能希望在不同丰富度的转录选项中进行选择的场景,很明显,我们预测的附加信息的数量和性质是可以指定的,具体取决于下游应用程序。传统的ASR系统能够在识别口语的过程中生成多个假设的网格,这已被证明在人工辅助转录、口语对话系统和信息检索中大有裨益。以丰富的输出格式包含n-best信息将鼓励更多用户使用ASR系统,从而改善用户体验。虽然目前不存在用于构建或存储当前或可能在语音解码期间生成的附加信息的标准,但CallMiner的开放语音转录标准(OVTS)是朝着这个方向迈出的坚实一步,使企业可以轻松探索和选择多个ASR提供??商。我们预测,在未来,ASR系统将以标准格式产生更丰富的输出,从而支持更强大的下游应用程序。例如,ASR系统可能会输出所有可能的网格,应用程序可以在编辑转录时使用此附加数据进行智能自动转录。同样,包含额外元数据(例如检测到的地方方言、口音、环境噪音或情绪)的ASR转录可以实现更强大的搜索应用程序。3.MassiveASRforAll“在这十年里,massiveASR(即私密的、负担得起的、可靠的和快速的)将成为每个人日常生活的一部分。这些系统将能够搜索视频、索引我们参与的所有媒体内容和让全世界有听力障碍的消费者都能访问每个视频。ASR将是让每个音频和视频都易于访问和操作的关键。”我们可能都在大量使用音频和视频软件:播客、社交媒体流、在线视频、实时群聊、Zoom会议等。但相关内容很少真正被转录。内容转录已经是ASRAPI最大的市场之一今天,并将在未来十年呈指数增长,特别是考虑到它们的准确性和经济性。话虽如此,ASR转录目前仅用于特定应用(广播视频、某些会议和播客等)。因此,很多人都无法访问此媒体内容,并且在广播或事件之后可能很难找到相关信息。未来,这种情况将会改变。在某个时候,正如MattThompson在2010年预测的那样,ASR将变得如此便宜和广泛,以至于我们将体验他所说的“演讲”。我们预见到一个未来,几乎所有音频和视频内容都将被转录并立即可大规模访问、存储和搜索。但是tASR的发展不会就此止步,我们也希望这些内容是可操作的。我们想要消费或参与的每个音频和视频都会提供额外的上下文,例如从播客或会议中自动生成的见解,或视频中关键时刻的自动摘要等,我们希望NLP系统能够常规处理上述内容.4.人机协同“到本世纪末,我们将拥有进化的ASR系统,其行为就像一个活的有机体,在人类的帮助下或自我监督下不断学习。这些系统将从真实的不同来源学习世界,实时而不是异步地理解新词和语言变体,自我调试并自动监控不同的用法。”随着ASR成为主流并涵盖越来越多的用例,人机协作将发挥关键作用。ASR模型的训练很好地体现了这一点。如今,开源数据集和预训练模型降低了ASR供应商的进入门槛。然而,训练过程仍然相当简单:收集数据、标注数据、训练模型、评估结果、改进模型。但这是一个缓慢的过程,而且在许多情况下,由于调整困难或数据不足,容易出错。加纳林等。观察到缺失的元数据和语料库中表示的不一致使得很难保证ASR性能方面的可比准确性,这是Reid和Walker在开发元数据标准时试图解决的问题。未来,人类将通过有效地智能监督ASR训练,在加速机器学习方面发挥越来越重要的作用。人在环路方法将人工审阅者置于机器学习/反馈循环中,允许对模型结果进行持续审阅和调整。这使得机器学习更快、更高效,从而产生更高质量的输出。今年早些时候,我们讨论了ASR的改进如何让Rev的人类转录员(称为“Revvers”)对ASR草稿进行后期编辑,从而提高工作效率。Revver的转录可以直接输入改进后的ASR模型,形成良性循环。人类语言专家仍然是ASR不可或缺的一个领域是反向文本规范化(ITN),他们将识别的字符串(例如“五”)转换为预期的书面形式(例如“$5”)。Pusateri等。提出了一种使用“手工语法和统计模型”的混合方法,Zhang等人。通过用手工制作的FST约束RNN来继续这些路线。5.ResponsibleASR“与所有人工智能系统一样,未来的ASR系统将遵循更严格的人工智能伦理原则,使系统对所有人一视同仁,具有更高程度的可解释性,对其决策负责,并尊重用户和其隐私。数据。”未来的ASR系统将遵循AI伦理的四项原则:公平性、可解释性、尊重隐私和责任。识别和减少模型和训练数据中的偏差。幸运的是,政府、非政府组织和企业已经在努力创建基础设施来识别和减轻偏差。可解释性:ASR系统将不再是“黑匣子”:它们将解释数据收集和分析、模型性能和按需输出过程。这种额外的透明度需要更好地人工监督模型训练和性能。像Ge??rlings等人一样,我们从一系列利益相关者的角度来处理可解释性,包括研究人员、开发人员、客户和,在Rev的案例中,转录员。研究人员可能想知道为什么输出错误的文本为了减轻问题;而转录专家可能需要一些证据来说明为什么ASR会这样认为,以帮助他们评估其有效性,尤其是在嘈杂的情况下,ASR可能比人类“听”得更好更有效。在音频关键字识别的背景下,Weitz等人。为实现最终用户的可解释性采取了重要的初步步骤。Laguarta和Subirana已将临床医生指导的解释纳入阿尔茨海默病检测的语音生物标记系统。尊重隐私:根据各种美国和国际法律,“语音”被视为“个人数据”,因此,语音记录的收集和处理受到严格的个人隐私保护。在Rev中,我们已经提供了数据安全和控制功能,未来的ASR系统将进一步尊重用户数据隐私和模型隐私。在许多情况下,这可能涉及将ASR模型推到边缘(在设备上或浏览器中)。语音隐私挑战正在推动这一领域的研究,许多司法管辖区(例如欧盟)已经在着手立法。隐私保护机器学习领域有望引起人们对该技术这一关键方面的关注,使其能够被公众广泛接受和信任。问责制:我们将监控ASR系统,以确保其遵守前三项原则。这反过来又需要投资资源和基础设施来设计和开发必要的监测系统并根据调查结果采取行动。部署ASR系统的公司将对其技术的使用负责,并做出具体努力以遵守ASR道德原则。值得一提的是,人类作为ASR系统的设计者、维护者和消费者,将负责实施和执行这些原则——这是人机协作的另一个例子。参考链接:https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/
