当前位置: 首页 > 科技观察

带你了解语音识别技术的发展史

时间:2023-03-18 13:12:59 科技观察

作者|杨军,单位:中国移动雄安产业研究院实验室简介语音识别相信大家都不陌生。近年来,语音识别技术的应用层出不穷,而且也更加智能化。语音识别从简单地询问“你是谁”到现在与我们进行多次对话、理解我们的意思甚至我们的心情已经走过了漫长的道路。大多数人可能认为语音识别是近几年才出现的技术,其实不然。让我们一起看看语音技术的发展史。Part01近70年语音识别发展史1952年,贝尔实验室发明了自动数字识别机。科学家们对智能语音有一个模糊的概念。或许在这个时候,科学家们已经在想象我们今天所取得的成就。1964年,IBM在世博会上推出数字语音识别系统。从此,语音技术走出了实验室,为更多人所熟知。贝尔实验室的梦想,也成为了更多人的梦想。1980年,Dragon推出第一款语音识别产品DragonDictate,这是第一款面向消费者的语音识别产品。虽然第一次梦想成真,但其高达9000美元的售价却大大增加了智能语音技术的普及难度。1997年,IBM推出了第一款语音识别产品ViaVoice。在中国市场,IBM对四川、上海、广东等地方方言进行了适配,ViaVoice真正被更多的消费者所接触和使用。2011年,苹果首次在iphone4s上加入了智能语音助手Siri。至此,智能语音与手机深度绑定,走进了消费者的日常生活。随后,国内各大手机厂商也纷纷跟进,为手机消费者提供丰富多彩的语音识别功能。从此,语音识别技术的应用不再局限于手机,而是扩展到各种场景。从智能机器人、智能电视、智能加湿器等各类智能家居,到智能汽车,各大传统厂商和新造车厂商都在积极布局智能座舱。可见,智能语音技术已经广泛应用于我们衣食住行的方方面面。Part02语音识别技术简介语音识别技术,也称为自动语音识别(ASR),旨在将人类语音中的词汇内容转换为计算机可读输入。语音识别技术是人工智能的一个重要分支,涉及信号处理、计算机科学、语言学、声学、生理学、心理学等多学科,是自然人机交互技术中的关键环节。Part03语音识别的基本过程ASR:自动语音识别(AutomaticSpeechRecognition),一种将人类语音转换为文本的技术。NLU:自然语言理解(NaturalLanguageUnderstanding,NLU)是所有支持机器理解文本内容的方法模型或任务的总称。NLG:自然语言生成(NaturalLanguageGeneration,NLG)是计算机在特定交互目标下生成语言文本的自动化过程。它的主要目的是自动构建人类可以理解的高质量语言文本。上图显示了语音识别的基本过程。用户发出指令后,麦克风采集音频,完成声音到波形的转换。通过将波形与人类发音的波形进行比较,可以识别说出的特定音节。通过音节,组合成词句,并结合大数据分析最匹配的词,然后NLU模块开始工作,分析句子的意图(intent)、领域(Domain)等信息。分析完意图后,启动对话管理DM(DialogManager),通过后台数据查询应该给用户什么反馈。然后交给NLG模块,通过检测到的信息生成自然语言,最后通过TTS模块,将文字转回波形,播放声音。上述过程涉及到很多学科和知识。由于篇幅原因,我就不一一描述了。这里我选择ASR进行比较详细的研究。Part04ASR实现原理简单分析我们先来看ASR的音源,当用户发出指令时,例如:我爱你。此时麦克风会将音频采集到存储设备中。我们用音频处理软件(比如Audacity)打开后,可以发现音频是一个波形。但是这个波形图没有任何直观和有意义的信息。它的高度只代表声音的大小,横轴只是时间。语音识别本身就是一种基于大数据的分析技术。分析的基础是数据的准确性。声音的大小和发音的长短很难有任何统计意义,所以这时候我们需要对音频进行处理。(这个波形是四个句子我爱你的波形图)。一种常用的处理方法是傅立叶变换。通过傅立叶变换,我们可以将时间维度的波形图转换为频率维度的波形图。为什么我们要处理频率维度?因为我们都知道,人类所能听到的声音,大概是在一个频段内。这涉及到生物学和声学方面的知识。我们的人体结构大致相同。这里理所当然地认为,尽管存在个体差异和性别差异,但我们发出声音的频率不会相差很大。这样,我们就把没有统计意义的声音波形图处理成了频率图。但是我们的时间维度不能丢失。我们把声音分好后(这里涉及到声音预处理,分帧等知识,暂时不展开),我们可以根据本地的声学模型进行对比,看看每一帧时间内的输出。的音素是什么。在中文中,音素是指我们发音的字母。例如,“I”由两个音素组成:w和o。到目前为止,我们知道如何将音频文件中的声音处理成音素。然后通过语言学、统计学等技术,结合具体语境,将音素组合成词,将词组合成句子,从而识别出用户所说的句子,完成ASR的大致过程。上面的方法其实是各种语音识别技术中比较简单的一部分。在实际应用中,还可能包括各种技术,如上述MFCC方法的声学特征提取、降噪、分帧、增加声音预处理等。Windows、端点检测等技术。Part05语音识别及相关技术前景及我们能做什么随着硬件技术的提升和5G技术的普及,我们可以在后端处理海量数据,依托5G技术的稳定性和低时延,为用户提供更好的可靠和流畅的服务,可以预见,在不久的将来,语音识别和相关技术将变得更加智能和稳定。作为国内在用户基数上具有绝对优势的电信运营商,中国移动可以依托5G优势和规模优势,为用户提供更优质的服务,为智慧城市建设提供有力保障,为国家发展做出更多贡献。