近日,阿里达摩院机器智能实验室推出新一代语音识别模型DFSMN,将全球语音识别准确率提升至96.04%(本A数据测试基于全球最大的免费语音识别数据库LibriSpeech)。 达摩院机器智能实验室语音识别团队牵头研发了该模型,并宣布向全球企业和个人开源。与业界应用最广泛的LSTM模型相比,DFSMN模型训练速度更快,识别准确率更高。智能音响或智能家居设备采用全新的DFSMN模型,相比上一代技术深度学习训练速度提升3倍,语音识别速度提升2倍。图:阿里在GitHub平台上开源了自研DFSMN语音识别模型 在不久前的云栖大会武汉峰会上,搭载DFSMN语音识别模型的“AI收银员”与真人店员比武。在嘈杂的环境中准确识别用户语音点单,仅用49秒就点了34杯咖啡。此外,搭载这种语音识别技术的自动售票机也已经在上海地铁“值班”。 著名语音识别专家、西北工业大学教授谢磊表示:“阿里开源的DFSMN模型是语音识别精度稳步提升的突破,是语音识别领域的深度学习“近年来**最具代表性的成果之一。它对全球学术界和人工智能技术的应用产生了巨大的影响。”业内人士表示,DFSMN有望成为继传统LSTM模型之后全球语音识别领域最重要的声学识别模型之一。
