有了这5款开源软件，语音转文字很简单！

时间：2023-03-17 18:50:22 科技观察

Speech-to-text（STT）系统，一种可以将语音单词转换为文本的方法，用途广泛，比如我们经常使用的微信聊天中的语音转文本功能。过去，语音转文本技术由专有软件和库控制；开源替代品不存在或极其有限，这已经改变，今天有许多开源语音到文本工具和库可供您使用，今天，我们这里有5个有用的开源语音识别库。1.DeepSpeech项目，由Mozilla开发，是一个100%免费的开源语音转文本库，使用TensorFlow机器学习框架实现去功能化。你可以用它来构建自己的训练模型来增强语音转文本的效果，也可以根据需要引入其他语言，甚至可以很方便地将其集成到TensorFlow上的其他机器学习项目中。唯一遗憾的是该项目目前默认只支持英文。它还支持Python（3.6）等多种语言。运行很简单：pip3installdeepspeechdeepspeech--modelmodel/output_graph.pbmm--alphabetmodel/alphabet.txt--lmmodel/lm.binary--triemodel/trie--audiomy_audio_file.wav也可以使用npm安装it:npminstalldeepspeech最近，DeepSpeech也登上了GithubTrending周榜单：Github地址：https://github.com/mozilla/DeepSpeech2，KaldiKaldi是一款用C++编写的开源语音识别软件，遵循ApachePublicLicense协议，支持Windows、macOS和Linux，于2009年发布。与其他语音识别软件相比，Kaldi的主要特点是可扩展性和模块化。社区提供了大量的第三方模块，Kaldi也支持深度神经网络，并在其网站上提供了完整的文档。虽然代码主要是用C++编写的，但它是通过Bash和Python脚本包装的。因此，如果您只想实现基本的语音转文本功能，使用Python或Bash很容易做到。项目主页：http://kaldi-asr.org/3,Julius这可能是有史以来最古老的语音识别软件之一；它于1991年由京都大学开发，然后交给一个独立的项目组。Julius的主要特点包括能够进行实时STT，低内存占用（20,000个单词不到64MB），能够输出最佳单词N-bestword和Word-graph，能够运行为服务器单元等。该软件主要是为学术和研究机构设计的。它是用C编写的，可以在Linux、Windows、macOS甚至Android（在智能手机上）上运行。目前，它只支持英文和日文，该软件可以很容易地安装在Linux发行版的存储库中。只需在包管理器中搜索julius包。项目主页：https://github.com/julius-speech/julius4，Wav2Letter++Wav2Letter++是Facebook的AI研究团队今年发布的开源语音识别软件。该代码是在BSD许可证下发布的。Facebook将其仓库描述为“当今最快、最先进的语音识别系统”。默认情况下，构建此工具的概念针对性能进行了优化。Wav2Letter++建立在FlashLight之上，FlashLight也是Facebook最新的机器学习库。要使用Wav2Letter++，您首先需要为您想要的语言构建一个训练模型，以便训练算法。没有针对任何语言（包括英语）的预训练模型，它只是一个由机器学习驱动的文本转语音工具，它是用C++编写的，因此得名Wav2Letter++。项目主页：https://github.com/facebookresearch/wav2letter5，DeepSpeech2百度研究人员也在研发自己的语音转文本引擎DeepSpeech2。它是一个端到端的开源引擎，使用“PaddlePaddle”深度学习框架将语音转换为英语和普通话的文本。这个项目是在BSD许可证下发布的。该引擎可以针对任何模型和所需的任何语言进行训练。模型不随代码一起分发；像其他软件一样，您必须自己构建它们。DeepSpeech2的源代码是用Python编写的；因此，如果这是您的语言，您应该能够快速入门Google和IBM等软件巨头占主导地位（并且他们为此提供了自己的闭源商业服务），但开源替代方案很有希望。这5个开源语音识别引擎允许您自己构建应用程序。你用过吗？

上一篇：用栈实现队列&用队列实现栈_0

下一篇：当心陷阱！Java10个常见错误

有了这5款开源软件，语音转文字很简单！相关文章