Speech-to-text(STT)系统,一种可以将语音单词转换为文本的方法,用途广泛,比如我们经常使用的微信聊天中的语音转文本功能。过去,语音转文本技术由专有软件和库控制;开源替代品不存在或极其有限,这已经改变,今天有许多开源语音到文本工具和库可供您使用,今天,我们这里有5个有用的开源语音识别库。1.DeepSpeech项目,由Mozilla开发,是一个100%免费的开源语音转文本库,使用TensorFlow机器学习框架实现去功能化。你可以用它来构建自己的训练模型来增强语音转文本的效果,也可以根据需要引入其他语言,甚至可以很方便地将其集成到TensorFlow上的其他机器学习项目中。唯一遗憾的是该项目目前默认只支持英文。它还支持Python(3.6)等多种语言。运行很简单:pip3installdeepspeechdeepspeech--modelmodel/output_graph.pbmm--alphabetmodel/alphabet.txt--lmmodel/lm.binary--triemodel/trie--audiomy_audio_file.wav也可以使用npm安装it:npminstalldeepspeech最近,DeepSpeech也登上了GithubTrending周榜单:Github地址:https://github.com/mozilla/DeepSpeech2,KaldiKaldi是一款用C++编写的开源语音识别软件,遵循ApachePublicLicense协议,支持Windows、macOS和Linux,于2009年发布。与其他语音识别软件相比,Kaldi的主要特点是可扩展性和模块化。社区提供了大量的第三方模块,Kaldi也支持深度神经网络,并在其网站上提供了完整的文档。虽然代码主要是用C++编写的,但它是通过Bash和Python脚本包装的。因此,如果您只想实现基本的语音转文本功能,使用Python或Bash很容易做到。项目主页:http://kaldi-asr.org/3,Julius这可能是有史以来最古老的语音识别软件之一;它于1991年由京都大学开发,然后交给一个独立的项目组。Julius的主要特点包括能够进行实时STT,低内存占用(20,000个单词不到64MB),能够输出最佳单词N-bestword和Word-graph,能够运行为服务器单元等。该软件主要是为学术和研究机构设计的。它是用C编写的,可以在Linux、Windows、macOS甚至Android(在智能手机上)上运行。目前,它只支持英文和日文,该软件可以很容易地安装在Linux发行版的存储库中。只需在包管理器中搜索julius包。项目主页:https://github.com/julius-speech/julius4,Wav2Letter++Wav2Letter++是Facebook的AI研究团队今年发布的开源语音识别软件。该代码是在BSD许可证下发布的。Facebook将其仓库描述为“当今最快、最先进的语音识别系统”。默认情况下,构建此工具的概念针对性能进行了优化。Wav2Letter++建立在FlashLight之上,FlashLight也是Facebook最新的机器学习库。要使用Wav2Letter++,您首先需要为您想要的语言构建一个训练模型,以便训练算法。没有针对任何语言(包括英语)的预训练模型,它只是一个由机器学习驱动的文本转语音工具,它是用C++编写的,因此得名Wav2Letter++。项目主页:https://github.com/facebookresearch/wav2letter5,DeepSpeech2百度研究人员也在研发自己的语音转文本引擎DeepSpeech2。它是一个端到端的开源引擎,使用“PaddlePaddle”深度学习框架将语音转换为英语和普通话的文本。这个项目是在BSD许可证下发布的。该引擎可以针对任何模型和所需的任何语言进行训练。模型不随代码一起分发;像其他软件一样,您必须自己构建它们。DeepSpeech2的源代码是用Python编写的;因此,如果这是您的语言,您应该能够快速入门Google和IBM等软件巨头占主导地位(并且他们为此提供了自己的闭源商业服务),但开源替代方案很有希望。这5个开源语音识别引擎允许您自己构建应用程序。你用过吗?
