当前位置: 首页 > 科技观察

人工智能:语音识别技术

时间:2023-03-21 13:13:41 科技观察

今天给大家介绍一些关于语音识别的知识,希望对大家有所帮助!1、什么是演讲?语音是指人类通过发声器官发出的具有一定意义、用于交流的声音。语音在电脑中的存储:以波形文件的形式存储,通过波形可以反映语音的变化,从而获得声音强度、声音长度等参数信息。音域参数:傅里叶谱、梅尔频率转谱系数,主要用于提取语音内容和音色的差异,进一步区分语音信息。2.什么是语音识别?简单地说,语音识别就是将语音内容自动转换为文本的过程,是一种人机交互的技术。涉及领域:声学、人工智能、数字信号处理、心理学等。语音识别的输入:一段播放声音文件的序列。语音识别的输出:输出结果是一个文本序列。3、语音识别原理语音识别需要经过四个部分:特征提取、声学模型、语音模型、语音解码和搜索算法。特征提取:从最原始的信号中提取出待分析的信号。该阶段主要进行语音幅度标准化、频响校正、分帧、加窗、起点终点检测等预处理操作,为声学模型提供所需的特征向量。声学模型:依靠声学模型分析语音参数(语音共振峰频率、幅度等),分析语音的线性预测参数。语言模型:根据相关语言学理论,计算声音片段可能的短语序列的概率。语音解码和搜索算法:根据声学模型+发音词典+语音模型构建的搜索空间找到最合适的路径。解码完成后的最终输出文本。4.语音识别系统的组成一个完整的语音识别系统包括:预处理、特征提取、声学模型训练、语言模型训练、语音解码。4.1预处理对输入的原始声音信号进行处理,滤除背景噪声和非重要信息,同时进行语音信号首尾查找、语音分帧、信号高频部分提升等操作。4.2特征提取最常用的特征提取方法是Meltontospectralcoefficient(MFCC),因为它具有很好的抗噪性和鲁棒性。4.3声学模型训练根据Suspense语音库的特征参数训练声学模型参数,以便在识别时与声学模型匹配得到相应的结果。目前主流的语音识别系统普遍采用HMM进行声学模型建模。4.4语言模型训练用于预测哪个词序列更有可能是正确的。4.5语音译码器译码器是语音识别技术中的识别过程。根据输入的语音信号,用训练好的HMM声学模型、语言模型和发音词典建立搜索空间,根据搜索算法找到最合适的路径。从而找到最合适的词串。5、语音识别使用场景语音识别在日常生活中应用广泛,主要分为封闭式和开放式应用。封闭应用:主要是指特定控制指令的应用。比如常见的智能家居,通过语音指令控制电灯开关、热水器开关温度、打开空调等,大大丰富了我们的日常生活;开放应用:开放应用主要是为厂商提供语音识别服务。相应的SDK以私有云的方式部署,让使用服务的客户调用语音识别服务。常见场景包括输入法、会议字幕实时输出、视频剪辑字幕配置等。