当前位置: 首页 > 科技观察

语音识别技术是如何发展的?

时间:2023-03-18 21:22:24 科技观察

语音识别技术从1950年代开始发展。现在让我们看看这项技术多年来是如何发展的,以及我们使用语音识别和语音转文本功能的方式如何随着技术的发展而发展。1950年代至80年代:第一台可以听到声音的计算机诞生自动语音识别(ASR)的强大功能意味着它的发展总是与大公司联系在一起。1952年,贝尔实验室率先研制出语音号码识别系统——AUDERY。在严格控制的条件下,AUDERY系统识别语音号码的准确率为97-99%。然而,根据科学家和前贝尔实验室电气工程师JamesFlanagan的说法,AUDERY坐在“一个六英尺高的继电器架上,消耗了大量的电力,并且出现了许多与复杂的真空管电路相关的维护问题。”AUDREY太贵了,即使是特定用途也不方便。1962年,IBM推出了Shoebox,它可以识别数字和简单的数学术语。与此同时,日本的实验室正在开发元音和音素识别器以及第一个语音标记器。计算机理解一小部分数字(例如0-9)是一回事,但京都大学的突破是“分割”一段语音,因此该技术可以在整个语音范围内使用。70年代,美国国防部(DARPA)资助了语音理解研究(SUR)计划。该研究的成果包括卡内基梅隆大学的HARPY语音识别系统。HARPY从1,011个单词的词汇表中识别句子,赋予系统平均三岁儿童的语音能力。HARPY是最早使用HMM的语音识别模型之一。这种概率方法在1980年代推动了ASR的发展。事实上,语音转文本工具的第一个可行用例出现在1980年代的IBM实验性转录系统Tangora中。经过适当的训练,Tangora可以识别和输入20,000个英文单词。然而,该系统对于商业用途来说仍然过于庞大。1990年代到2010年代:消费级ASR“我们认为让机器模仿人是错误的,”IBM的语音识别创新者FredJelinek回忆道。“毕竟,如果一台机器必须移动,它是靠轮子移动的,而不是步行。我们不想弄清楚人们是如何听到和理解语言的,而是想找到让机器做到这一点的自然方式。1990年,DragonDictate作为第一款商用语音识别软件推出。当时它的成本约为9,000美元。在1997年推出DragonNaturallySpeaking之前,用户仍然需要在每个单词之间停顿。1992年,AT&T推出了贝尔实验室的语音识别呼叫处理(VRCP)服务。VRCP现在每年处理大约12亿次语音交易。但在1990年代,大部分语音识别工作都是在幕后完成的。个人电脑和无线无处不在的网络创造了创新的新视角。这正是2004年加入谷歌并开始公司语音技术开发的MikeCohen发现的机会。谷歌语音搜索(2007年)使大众可以使用语音识别技术……但它也回收了数百万网络用户的语音数据作为机器学习的培训材料。苹果(Siri)和微软(Cortana)紧随其后。2010年代初期,深度学习、递归神经网络(RNN)和长短期记忆(LSTM),导致ASR技术能力的超空间飞跃。这种前进的动力在很大程度上也受到低成本计算和大规模算法进步的出现和可用性的推动。ASR的现状是在数据十年发展的基础上,响应用户越来越高的期望,语音识别技术在过去五年有了进一步的飞跃。针对不同的音频保真度和苛刻的硬件要求优化解决方案,通过语音搜索和物联网实现语音识别,更方便日常使用。例如,智能音箱使用热词检测通过嵌入式软件提供即时结果。同时,将剩余的句子发送到云端进行处理。Google的VoiceFilter-Lite在交易设备中优化个人语音。这允许消费者用自己的声音“训练”他们的设备。培训降低了源失真率(SDR)并提高了语音激活辅助应用程序的可用性。单词错误率(WER-语音到语音文本转换过程中出现的错误单词的百分比)正在急剧下降。研究人员认为,到2020年代末,99%的转录将实现自动化。人们只会介入进行质量控制和纠正。2020年代ASR用例ASR功能正在与互联网时代共生发展。以下是自动语音识别的三个引人注目的用例。播客行业将在2021年突破10亿美元大关。听众不断飙升,词汇量不断涌现。播客平台正在寻找具有高精度和每个词时间戳的ASR提供??商,以帮助人们更轻松地创建播客并最大化其内容的价值。Description等应用程序将音频转换为可以快速编辑的文本。此外,为每个单词打上时间戳可以节省时间,让编辑们可以像粘土一样塑造完成的播客。这些文本还使所有观众更容易访问内容,并帮助创作者通过搜索引擎优化提高节目的可搜索性和可发现性。由于COVID-19大流行,越来越多的会议在线举行。尽管会议纪要很费时间,但它们对于与会者来说是一个非常有用的工具。因为会议纪要可以让与会者了解会议的总结,跟进细节。流式ASR可以将语音实时转换为文本,为会议和研讨会提供更方便的字幕和现场转录。法律证词和招聘等流程也正在虚拟化。ASR可以使视频内容更易于访问。但更重要的是,端到端(E2E)机器学习(ML)模型进一步改进了语音分割技术——记录谁在场以及谁说了什么。