当前位置: 首页 > 科技观察

AI智能语音识别算法篇

时间:2023-03-22 16:57:31 科技观察

1.目前常用的神经网络语音识别框架如下图所示。其背后的逻辑是在特征提取中使用的神经网络中的DNN技术。DNN技术可以分为两种,一种是CNN模型,一种是RNN模型2.解码器解码器信息来自声学模型、词典和语言模型。框图如下:2.1声学模型常用的声学模型是GMM-HMM,即混合高斯模型-隐马尔可夫模型。对特征向量的概率分布进行建模。2.2DictionaryDictionary:发音词典。在中文里,就是拼音和汉字的对应关系。在英语中,是音标与单词的对应关系。让我们在声学模型和语言模型之间架起一座桥梁,将两者连接起来。例如下面单词的映射表:2.3语言模型语言模型是为某种语言建立的概率模型,是用来计算句子出现概率的概率模型。分为以下两种:2.3.1N-element统计语言模型:N-gram模型,smoothing2.3.2Neuralnetworklanguagemodel:与统计语言模型不同,神经网络语言模型不通过对nn要素条件不是估计概率,而是直接用神经网络建模求解。用途:1.确定哪个词序列更有可能2.给定几个词,预测下一个词示例:1.我去参加一个聚会。眼睛去了两个酒吧喝茶。2.你现在在做什么?