当前位置: 首页 > 科技观察

使用DeepSpeech在您的应用程序中进行语音转文本_0

时间:2023-03-17 19:33:00 科技观察

应用程序中的语音识别不仅是一个有趣的技巧,而且是一项重要的辅助功??能。计算机的主要功能之一是解析数据。有些数据比其他数据更容易解析,语音输入仍在进行中。不过,近年来该领域已有许多改进,其中之一是DeepSpeech,它是Mozilla的一个项目,Mozilla是维护Firefox浏览器的基础。DeepSpeech是一个语音到文本的命令和库,对于需要将语音输入转换为文本的用户和想要为其应用程序提供语音输入的开发人员来说都很有用。安装DeepSpeechDeepSpeech是开源的,并在Mozilla公共许可证(MPL)下发布。您可以从其GitHub页面下载源代码。要安装,首先要为Python创建一个虚拟环境:$python3-mpipinstalldeepspeech--userDeepSpeech依赖于机器学习。您可以自己训练它,但最简单的是在开始时下载预训练的模型文件。$mkdirDeepSpeech$cdDeepspeech$curl-LO\https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm$curl-LO\https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer用户应用程序使用DeepSpeech,您可以将语音录音转录为书面文本。您可以从在最佳条件下干净地录制的声音中获得最佳效果。但是,在紧要关头,您可以尝试任何录音,最终可能会得到需要手动转录的内容。为了进行测试,您可以录制一个包含简单短语的音频文件:“这是一个测试。你好,世界,这是一个测试”。将音频保存为名为hello-test.wav的.wav文件。在您的DeepSpeech文件夹中,通过提供模型文件、评分器文件和音频开始转录:$deepspeech--modeldeepspeech*pbmm\--scorerdeepspeech*scorer\--audiohello-test.wav输出到标准输出(你的终端):这是一个测试helloworld这是一个测试你可以使用--json选项获得JSON格式的输出:$deepspeech--modeldeepspeech*pbmm\--json--scorerdeepspeech*scorer\--audiohello-test.wav这会为每个单词呈现一个时间戳:{"transcripts":[{"confidence":-42.7990608215332,"words":[{"word":"this","start_time":2.54,“持续时间”:0.12},{“单词”:“是”,“开始时间”:2.74,“持续时间”:0.1},{“单词”:“a”,“开始时间”:2.94,“持续时间”:0.04},{"word":"test","start_time":3.06,"duration":0.74},[...]DeveloperDeepSpeech不仅仅是一个转录预录音频的命令。您还可以使用它来实时处理音频流。GitHub存储库DeepSpeech-examples包含适用于Android的JavaScript、Python、C#和Java的各种代码。大多数艰苦的工作已经完成,所以集成DeepSpeech通常只是引用DeepSpeech库并知道如何从主机设备获取音频(您通常通过Linux上的/dev文件系统或Android和其他平台上的SDK来完成此操作)完成。)语音识别作为开发人员,为您的应用程序启用语音识别不仅是一个有趣的技巧,而且是一项重要的辅助功??能,它使您的应用程序更容易被行动不便的人、视力不佳的人和需要同时处理多项任务的人使用很久。作为用户,DeepSpeech是一个非常有用的转录工具,可以将音频文件转换为文本。无论您的用途是什么,都可以尝试DeepSpeech,看看它能为您做什么。