本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处转载。阿里佛法学院又搞事情了。这两天,他们发布了一个全新的语音识别模型:Paraformer。开发人员直言:这是我们的“杀手”作品。——不仅是几大权威数据集的识别准确率,一路SOTA,与传统模型相比,推理效率也能提升高达10倍。值得一提的是,Paraformer一宣布就开源了。可承载语音输入法、智能客服、车载导航、会议纪要等多种场景。你是怎么做到的?Paraformer:从自回归到非自回归,我们知道语音一直是人机交互的重要研究领域。目前语音识别的基本框架已经从最初复杂的混合语音识别系统发展为高效便捷的端到端语音识别系统。其中,最具代表性的模型是自回归端到端模型Transformer,它可以在识别过程中一个接一个地生成目标文本,达到了很高的准确率。但是,Transformer计算的并行度较低,无法与GPU高效结合进行推理。针对这一问题,近年来学术界提出了一种并行输出目标文本的非自回归模型。但该模型也存在建模难度和计算复杂度高的问题,精度有待提高。达摩院此次推出的Paraformer,首次在工业应用层面解决了端到端的识别效果和效率问题。属于单轮非自回归模型。对于这一类模型,现有的工作往往着重于如何更准确地预测目标字符的数量,比如比较典型的MaskCTC,就是利用CTC来预测输出字符的数量。然而,考虑到实际应用中语速、口音、静音、噪声等因素的影响,如何准确预测目标字符的数量并提取目标字符对应的声学隐变量仍然是一个比较大的挑战。另一方面,通过比较自回归模型和单轮非自回归模型在工业大数据上的误差类型(如下图,AR和vanillaNAR),我们发现与自回归模型相比,非自回归模型在预测目标词数量(插入错误+删除错误)上的差距很小,但替换错误显着增加。阿里达摩院认为,这是由于单轮非自回归模型中的条件独立假设导致的语义信息丢失。同时,目前的非自回归模型主要处于学术验证阶段,在工业大数据上还没有相关的实验和结论。Paraformer是如何做到的?对于第一题,阿里达摩院使用预测器(Predictor)预测字符个数,通过Continuousintegrate-and-fire(CIF)机制提取字符对应的声学隐变量。对于第二个问题,他们受到机器翻译领域的Glancing语言模型(GLM)的启发,设计了一个基于GLM的Sampler模块来增强模型对上下文语义的建模。此外,团队还设计了负样本生成策略,引入MWER判别训练。最后,Paraformer由五个部分组成:Encoder、Predictor、Sampler、Decoder和Lossfunction。核心点主要包括以下几点:Predictor模块:基于CIF的Predictor预测语音中目标词的个数,并提取目标词对应的声学特征向量;Sampler:通过采样将声学特征向量和目标词向量转化为语义信息模型的特征向量,配合双向Decoder增强模型对上下文的建模能力;基于负样本抽样的MWER训练标准。效果SOTA,推理效率最高提升10倍。最终,Paraformer-large模型在学术界常用的中文识别评估任务AISHELL-1、AISHELL-2和WenetSpeech的测试集上取得了最好的成绩。在AISHELL-1上,Paraformer是目前发表论文中性能(识别效果&计算复杂度)最好的非自回归模型,Paraformer-large模型的识别准确率远高于目前发表论文结果(开发/测试:1.75/1.95)。在专业第三方全网公有云中文语音识别评测SpeechIOTIOBE白盒测试中,Paraformer-large识别准确率超过98%,是目前公开评测准确率最高的中文语音识别模型。借助GPU推理,不同版本的Paraformer可以将推理效率提高5到10倍。同时,Paraformer采用了6倍下采样的低帧率建模方案,可以减少近6倍的计算量,支持大模型的高效推理。体验地址:https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary论文地址:https://arxiv.org/abs/2206.08317
