当前位置: 首页 > 科技观察

Kaldi现在提供了TensorFlow集成

时间:2023-03-12 04:19:59 科技观察

AutomaticSpeechRecognition(ASR)由于近年来虚拟个人助理的快速发展和深度学习算法的使用带来的单词识别准确率的飞跃而得到了广泛的采用。许多语音识别团队都依赖Kaldi,这是一种流行的开源语音识别工具包。我们宣布Kaldi现在提供TensorFlow集成。通过这种集成,使用Kaldi的语音识别研究人员和开发人员将能够使用TensorFlow在他们的Kaldi语音识别管道中探索和部署深度学习模型。通过这种方式,Kaldi社区可以构建更好、更强大的ASR系统,并为TensorFlow用户提供一种利用大型Kaldi开发者社区的经验来探索ASR的途径。构建一个可以理解每种对话语言、口音、环境和人类语音类型的ASR系统是一项极其复杂的任务。传统的ASR系统可以被视为由许多独立模块组成的处理管道,其中每个模块都对前一个模块的输出进行操作。原始音频数据从一端进入管道,识别语音的转录从另一端退出。在Kaldi中,这些ASR转录本以各种方式进行后处理,以支持越来越多的终端用户应用程序。来自总部位于西雅图的IntelligentWire公司的YishayCarmiel和HainanXu在两个团队的支持下领导了Kaldi和TensorFlow之间集成的开发,他们亲眼目睹了这种复杂性。他的公司开发的云软件弥合了实时电话对话和业务应用程序之间的差距。他们的目标是:使公司能够实时分析代理和客户之间的数千次对话并采取行动,同时自动执行数据输入或响应请求等任务。IntelligentWire目前专注于呼叫中心市场,全球有超过2200万座席每年在电话上花费500亿小时,查询和操作各种业务应用程序的时间约为250亿小时。要在这种环境中运行ASR系统,它不仅必须提供准确的转录,还必须确保低延迟和可扩展性以有效支持数千个并发对话。在这种情况下,近年来深度学习技术的发展有助于突破技术限制,TensorFlow大放异彩。在过去的几年里,人们一直在使用深度神经网络来替代许多原有的ASR模块,从而在单词识别准确率方面有了显着的提升。这些深度学习模块通常需要处理海量数据,而TensorFlow可以简化这种处理。然而,在开发生产级ASR系统时仍有几个重大挑战需要克服:.一旦部署了这些算法,修改它们就不是很容易了。数据——针对不同的语言和不同的声音环境构建ASR系统需要大量的多种类型的数据。如此大量的数据并不总是可用的,并且可能不适合用例。规模——能够支持大量使用量和多种语言的ASR系统通常是计算密集型的。应对这些挑战的ASR系统的构建块之一是语言模型。语言模型是最先进的ASR系统的关键组成部分之一,它们提供语言上下文,帮助预测单词的正确顺序并区分发音相似的单词。随着机器学习的最新突破,语音识别开发人员现在正在利用基于深度学习的语言模型,也称为神经语言模型。特别是循环神经语言模型的识别结果优于传统的统计方法。然而,训练和部署神经语言模型既复杂又耗时。对于IntelligentWire来说,将TensorFlow集成到Kaldi中,将ASR开发周期缩短了一个数量级。如果一个语言模型已经存在于TensorFlow中,那么从模型到概念验证只需要几天而不是几周;对于新模型,开发时间可以从几个月缩短到几周。在Kaldi生产流水线中部署新的TensorFlow模型也很简单,这对于开箱即用的Kaldi的每个人来说都是一个福音,而更智能的ASR系统可能会在未来使每个人受益。同样,这种集成让TensorFlow开发人员可以轻松访问强大的ASR平台,使他们能够将现有的语音处理管道(例如Kaldi强大的声学模型)集成到他们的机器学习应用程序中。Kaldi模块可以为TensorFlow深度学习模块训练提供输入,模块的更换简单利落,为探索和研究提供了很多便利,也可以复用生产中使用的pipeline来评估其质量模型。我们希望Kaldi和TensorFlow之间的这种集成将使这两个充满活力的开源社区更加紧密地联系在一起,支持各种新的语音产品和相关研究的突破。要开始使用与TensorFlow集成的Kaldi,请查看Kaldi代码库:https://github.com/kaldi-asr/kaldi另请参阅运行TensorFlow的Kaldi设置示例:https://github.com/kaldi-asr/kaldi/tree/master/egs/ami/s5/local/tfrnnlm【本文为专栏组织“GoogleDevelopers”原创稿件,转载请联系原作者(微信公众号:Google_Developers)】点此查看更多关于作者的好文