当前位置: 首页 > 科技观察

5个优秀的开源语音识别-语音转文本系统

时间:2023-03-12 16:31:27 科技观察

语音转文本(STT)系统,顾名思义,是一种将口语转换为文本文件以供后续使用的系统。语音转文本技术非常有用。它可以用于许多应用,例如自动转录、用自己的声音写书或文本、使用生成的文本文件和其他工具进行复杂的分析等。过去,语音转文本技术由专有软件主导和图书馆,要么没有开源替代品,要么有严格的限制,要么没有社区。这种情况正在发生变化,今天有许多开源语音转文本工具和库可供您使用。这里我列出5.开源语音识别库DeepSpeech项目5优秀的开源语音识别/Speech-to-TextSystems16开源语音识别该项目由Firefox浏览器开发组织Mozilla团队开发。它是100%免费和开源软件,顾名思义它使用TensorFlow机器学习框架来实现功能。换句话说,你可以用它来训练你自己的模型以获得更好的结果,你甚至可以用它来转换其他语言。您还可以轻松地将其集成到您自己的Tensorflow机器学习项目中。可惜目前项目默认只支持英文。它还支持多种编程语言,例如Python(3.6)。允许您在几秒钟内完成工作:pip3installdepspeechdeepspeech--modelmodels/output_graph.pbmm--alphabetmodels/alphabet.txt--lmmodels/lm.binary--triemodels/trie--audiomy_audio_file.wav你也可以通过npm安装它:npminstalldeepspeechProjectHomeKaldi5优秀的开源语音识别/语音到文本系统18开源语音识别Kaldi是一个用C++编写并在Apache公共许可证下发布的开源语音识别软件。它可以在Windows、macOS和Linux上运行。它的开发始于2009年。Kaldi相对于其他语音识别软件的主要特点是可扩展性和模块化。社区提供了大量的第三方模块,可以用来完成你的任务。Kaldi还支持深度神经网络,并在其网站上提供了出色的文档。虽然代码大部分是用C++完成的,但它被包装在Bash和Python脚本中。因此,如果您只想使用基本的语音转文本功能,您会发现使用Python或Bash很容易做到。ProjectHomeJulius5GoodOpenSourceSpeechRecognition/Speech-to-TextSystems20开源语音识别它可能是有史以来最古老的语音识别软件之一。它的开发于1991年在京都大学开始,然后在2005年将所有权转让给一个独立的项目组。Julius的主要特点包括执行实时STT的能力、低内存使用率(20,000个单词不到64MB)、输出能力最好的词(N-bestword)和词图(Word-graph),以及作为服务器单元运行的能力等。这个软件主要是为学术和研究机构设计的。用C编写,可在Linux、Windows、macOS甚至Android(在智能手机上)上运行。目前只支持英文和日文。软件应该可以很容易地从Linux发行版的存储库中安装。只需在您的包管理器中搜索julius。在本文发表前一个半月左右发布了一个版本的***。项目主页Wav2Letter++5优秀的开源语音识别/语音到文本系统22开源语音识别如果您正在寻找更时尚的东西,这个适合您。Wav2Letter++是Facebook的AI研究团队2个月前发布的一款开源语音识别软件。该代码是在BSD许可证下发布的。Facebook将其图书馆描述为“最快、最先进的语音识别系统”。它的构建理念是默认情况下针对性能进行优化。Facebook的专利机器学习库FlashLight也被用作Wav2Letter++的底层核心。Wav2Letter++要求您首先构建所描述语言的模型来训练算法。没有针对任何语言(包括英语)的预训练模型,它只是一个用C++编写的机器学习驱动的文本到语音转换工具,因此得名Wav2Letter++。项目主页DeepSpeech25优秀的开源语音识别/语音转文本系统24开源语音识别中国软件巨头百度的研究人员也在开发他们自己的语音转文本引擎,称为“DeepSpeech2”。它是一个使用“PaddlePaddle”深度学习框架进行英文或中文文本转换的端到端开源引擎。该代码是在BSD许可证下发布的。该引擎可以在您想要的任何模型和任何语言上进行训练。模型不随代码一起发布。您可以像其他软件一样自己构建模型。DeepSpeech2的源代码是用Python编写的,所以如果你用过它是非常容易上手的。ProjectHomepageSummary语音识别领域仍然由谷歌和IBM(为此提供闭源商业服务)等专有软件巨头主导,但开源等价物大有前途。这5个开源语音识别引擎应该可以帮助您构建应用程序,并且它们会随着时间的推移而发展。几年后,我们预计开源将成为这些技术的常态,就像在其他行业一样。如果您对该列表有其他建议或意见,我们很乐意在下方听到它们。