当前位置: 首页 > 科技观察

基于深度前馈顺序记忆神经网络的大词汇量连续语音识别

时间:2023-03-15 19:16:11 科技观察

【.com原稿】摘要在本研究中,我们提出了一种改进的前馈顺序记忆神经网络结构,称为深度前馈顺序记忆神经网络(DFSMN)。此外,我们结合深度前馈序列记忆神经网络和低帧率(LFR)技术构建了LFR-DFSMN语音识别声学模型。与目前最先进的基于长短期记忆单元的双向循环神经网络(BLSTM)识别系统相比,该模型在大词汇量的英文识别和中文识别任务中均能取得显着的性能提升。而且LFR-DFSMN在训练速度、模型参数量、解码速度、模型延迟等方面都比BLSTM有明显优势。研究背景近年来,深度神经网络已成为大词汇量连续语音识别系统中的主流声学模型。由于语音信号具有很强的长期相关性,因此普遍流行使用具有长期相关性建模能力的递归神经网络(RNN),如LSTM及其变形结构。循环神经网络虽然建模能力强,但其训练通常采用BPTT算法,存在训练速度慢、梯度消失等问题。在我们之前的工作中,我们提出了一种称为前馈顺序记忆网络(FSMN)的新型非递归网络结构,它可以有效地模拟信号中的长期相关性。与递归神经网络相比,FSMN训练效率更高,可以获得更好的性能。在本文中,我们在之前的FSMN相关工作的基础上进一步提出了一种改进的FSMN结构,称为深度前馈序列记忆神经网络(Deep-FSMN,DFSMN)。我们在FSMN的相邻记忆模块之间加入skipconnections(跳过连接),保证网络高层的梯度能很好的传递到低层,这样训练好的深度网络就不会面临梯度消失的问题。此外,考虑将DFSMN应用到实际的语音识别建模任务中,不仅需要考虑模型的性能,还需要考虑模型的计算量和实时性。针对这个问题,我们提出将DFSMN与低帧率(lowerframerate,LFR)相结合来加速模型的训练和测试。同时,我们设计了DFSMN的结构,通过调整DFSMN存储模块的顺序实现了时延控制,使得基于LFR-DFSMN的声学模型可以应用于实时语音识别系统。我们验证了DFSMN在包括英语和汉语在内的几个大词汇量连续语音识别任务上的性能。在当前流行的2000小时英语FSH任务上,我们的DFSMN与当前主流的BLSTM相比可以获得绝对的1.5%,并且模型参数更少。在20,000小时的中文数据库上,LFR-DFSMN相对于LFR-LCBLSTM可以实现20%以上的相对性能提升。此外,LFR-DFSMN可以灵活地控制延迟。我们发现将延迟控制到5帧语音仍然可以获得比延迟40帧的LFR-LCBLSTM更好的性能。FSMNReview第一个提出的FSMN的模型结构如图1(a)所示,它本质上是一个前馈全连接神经网络。通过在隐藏层旁边添加一些记忆块(memoryblocks),处理周围的上下文信息。建模,使模型可以对时间序列信号的长期相关性进行建模。FSMN的提出受到数字信号处理中滤波器设计理论的启发:任何无限冲激响应(InfiniteImpulseResponse,IIR)滤波器都可以用一个高阶有限冲激响应(FiniteImpulseResponse,FIR)滤波器来近似。从滤波器的角度来看,图1(c)所示的RNN模型的循环层可以看作是图1(d)所示的一阶IIR滤波器。FSMN使用的内存模块如图1(b)所示,可以看作是一个高阶FIR滤波器。因此,FSMN也可以像RNN一样有效地建模信号的长期相关性。同时,由于FIR滤波器比IIR滤波器更稳定,FSMN会比RNN训练更简单、更稳定。图1FSMN模型结构及与RNN的对比根据记忆模块编码系数的选择,可分为:1)标量FSMN(sFSMN);2)向量有限状态机(vFSMN)。顾名思义,sFSMN和vFSMN分别使用标量和向量作为记忆模块的编码系数。sFSMN和vFSMN记忆模块的表达式如下:上述FSMN只考虑了历史信息对当前时刻的影响,我们可以称之为单向FSMN。当我们同时考虑历史信息和未来信息对当前时刻的影响时,我们可以将单向FSMN扩展为双向FSMN。双向sFSMN和vFSMN记忆模块的编码公式如下:图2.cFSMN结构图与FNN相比,FSMN需要将记忆模块的输出作为下一个隐藏层的额外输入,会引入额外的模型参数.隐藏层包含的节点越多,引入的参数就越多。通过结合低秩矩阵分解的思想,我们提出了一种改进的FSMN结构,称为紧凑型FSMN(CompactFSMN,cFSMN)。图2是一个cFSMN的结构框图,它的第l个隐藏层包含一个记忆模块。对于cFSMN,通过在网络的隐藏层之后添加一个低维线性投影层,并在这些线性投影层上添加记忆模块。此外,cFSMN对记忆模块的编码公式做了一些改动,通过明确地将当前时刻的输出添加到记忆模块的表达式中,这样只需要将记忆模块的表达式作为输入下一层。这样可以有效减少模型的参数数量,加快网络的训练速度。具体来说,单向和双向cFSMN记忆模块的公式表达式如下:FSMN(DFSMN),左边第一个框代表输入层,右边最后一个框代表输出层。我们在cFSMN的内存模块之间添加一个skipconnection(红框所示),这样低层内存模块的输出会直接累加到高层内存模块中。这样,在训练过程中,高层记忆模块的梯度会直接赋值给低层记忆模块,这样就可以克服网络深度带来的梯度消失问题,深度网络可以稳定训练。我们也对记忆模块的表达做了一些修改。参考dilationconvolution[3]的思想,在memory模块中引入一些stride因子。具体计算公式如下:LFR-DFSMN声学模型在目前的声学模型中,输入是从每帧语音信号中提取的声学特征,每帧语音持续时间通常为10ms,会有一个每个输入语音帧信号对应的输出目标。最近的一项研究提出了一种低帧率(LowFrameRate,LFR)建模方案:通过绑定相邻时刻的语音帧作为输入,通过预测这些语音帧的目标输出得到一个平均输出目标。在具体实验中,可以在不损失模型性能的情况下实现三帧(或更多)拼接。因此,输入和输出可以减少到原来的三分之一或更多,在语音识别系统服务时可以大大提高声学分数计算和解码的效率。我们将LFR和上面提出的DFSMN结合起来,构建了一个基于LFR-DFSMN的语音识别声学模型,如图4所示。经过几组实验,我们最终决定使用包含10层DFSMN+2层DNN的DFSMN作为声学模型。输入和输出使用LFR,将帧率降低到原来的三分之一。图4.LFR-DFSMN声学模型结构框图实验结果1)英语识别我们在2,000小时的英语FSH任务上验证了所提出的DFSMN模型。我们首先验证了DFSMN的网络深度对性能的影响,我们验证了DFSMN分别包含6、8、10、12层DFSMN的情况。最终模型的识别性能如下表所示。通过增加网络的深度,我们可以获得显着的性能提升。我们也将其与一些主流声学模型进行了对比,结果如下表所示。从结果来看,DFSMN不仅比目前最先进的BLSTM参数更少,而且在性能上可以获得1.5%的绝对性能提升。2)中文识别关于中文识别任务,我们首先在5000小时任务上进行实验。我们分别验证了采用绑定音素状态(CD-State)和绑定音素(CD-Phone)作为输出层建模单元。关于声学模型,我们比较了延迟可控的BLSTM(LCBLSTM)、cFSMN和DFSMN。对于LFR模型,我们使用CD-Phone作为建模单元。详细的实验结果如下表所示:对于baselineLCBSLTM,使用LFR的性能与传统的单帧预测相似,优势是效率可以提升3倍。与传统的单帧预测相比,使用LFR的cFSMN不仅可以在效率上取得相应的提升,而且可以获得更好的性能。这主要是因为LFR在一定程度上破坏了输入信号的时序,而BLSTM的记忆机制对时序更为敏感。我们进一步探讨了网络深度对性能的影响。对于之前的cFSMN网络,当网络深度加深到10层时,会有一定的性能下降。对于我们***提出的DFSMN,10层网络相比8层网络还是可以实现性能提升的。最后,与基线LFR-LCBLSTM模型相比,我们可以获得超过20%的相对性能提升。在下表中我们比较了LFR-DFSMN和LFR-LCBLSTM的训练时间,以及解码的实时因子(RTF)。从结果来看,我们可以将训练速度提高3倍,同时将实时因素降低到原来的近三分之一。对于语音识别系统,另一个需要考虑的因素是模型的延迟。原始的BLSTM需要等待整个句子被接收后才能得到输出进行解码。LCBLSTM是目前改进的结构,可以控制译码的延迟。目前使用的LFR-LCBLSTM的延迟帧数为40帧。对于DFSMN,延迟帧的数量可以通过设计内存模块的过滤阶数来灵活控制。最后,当只有5帧延迟时,LFR-DFSMN仍然可以获得比LFR-LCBLSTM更好的性能。Deep-FSMNforLargeVocabularyContinuousSpeechRecognition团队:AlibabaSpeechInteractionIntelligenceTeam作者:ZhangShiliang/ShiliangZhang,LeiMing/MingLei,YanZhijie/ZhijieYan,DaiLirong/LiRongDai会议:ICASSP-2018原文链接:Deep-FSMNforLargeVocabularyContinuousSpeechRecognition[原创稿件,合作站点转载请注明原作者及出处.com]