MircoRavanelli宣布创建新的语音工具包已经一年多了,SpeechBrain果然如期而至。语音处理技术的进步是人工智能改变大众生活的重要组成部分。近年来深度学习技术的兴起也让这一领域取得了长足的进步。过去,该领域的主要方法是针对不同的任务开发不同的工具包。对于用户来说,学习每一个工具包都需要花费大量的时间,还可能涉及到学习不同的编程语言,熟悉不同的编码风格和标准。等待。今天,大多数这些任务都可以通过深度学习技术来完成。此前,开发者常用的语音工具有Kaldi、ESPNet、CMUSphinx、HTK等,各有各的不足。以Kaldi为例,它依赖大量的脚本语言,核心算法是用C++编写的,可能需要改变各种神经网络的结构。即使是经验丰富的工程师在调试的时候也会经历极大的痛苦。秉承让语音开发者更简单的原则,YoshuaBengio团队成员MircoRavanelli等人开发了一个试图继承Kaldi的效率和PyTorch的灵活性的开源框架——PyTorch-Kaldi,但据开发成员自己说,“它仍然不够好”。因此,就在一年多以前,MircoRavanelli发布了SpeechBrain,这是一种全新的一体式语音工具包。该项目于近日正式开源。鉴于以上背景,SpeechBrain的主要宗旨是:足够简单、足够灵活、用户友好。项目地址:https://github.com/speechbrain/speechbrain作为一个基于PyTorch的开源一体化语音工具包,SpeechBrain可用于开发最新的语音技术,包括语音识别、说话人识别、语音增强、多麦克风信号处理和语音识别系统等方面,都有很好的表现。该团队将其特点描述为“易于使用”、“易于定制”、“灵活”、“模块化”等。对于机器学习研究人员来说,SpeechBrain可以很容易地嵌入到其他模型中,以促进语音技术的研究;对于初学者来说,SpeechBrain并不难掌握。根据测试,一般的开发者只需要几个小时就可以熟悉工具包的使用。此外,开发团队还发布了很多教程供大家参考(https://speechbrain.github.io/tutorial_basics.html)。总的来说,SpeechBrain有以下亮点:开发团队将一些预训练模型与HuggingFace集成,这些模型具有可以运行推理的接口。如果HuggingFace模型不可用,团队将提供一个包含所有相应实验结果的GoogleDrive文件夹;使用PyTorch数据并行或分布式数据并行进行多GPU训练和推理;混合精度以加速训练;透明且完全可访问的自定义数据输入和输出管道。SpeechBrain遵循PyTorch数据加载器和数据集样式,使用户能够自定义I/O管道。快速安装开发人员目前可以通过PyPI安装SpeechBrain,此外还可以使用本地安装来运行实验和修改/自定义工具包。SpeechBrain支持基于Linux的发行版和macOS(并为Windows用户提供了解决方案:https://github.com/speechbrain/speechbrain/issues/512)。SpeechBrain同时支持CPU和GPU,但对于大多数菜谱,训练时必须使用GPU。需要注意的是,必须正确安装CUDA才能使用GPU。安装教程地址:https://speechbrain.readthedocs.io/en/latest/installation.html通过PyPI安装创建Python环境后,只需输入以下内容:pipinstallspeechbrain然后就可以使用如下命令访问SpeechBrain:importspeechbrainassb本地安装创建Python环境安装完成后,只需输入以下内容:gitclonehttps://github.com/speechbrain/speechbrain.gitcdspeechbrainpipinstall-rrequirements.txtpipinstall--editable。然后可以通过以下方式访问SpeechBrain:importspeechbrainassb无论您对speechbrain包编辑做什么,在使用--editable标志安装包时都会自动解释。SpeechBrain不隶属于任何机构,团队成员来自MilaInstitute、Nuance、DolbyLaboratories、Nvidia、Samsung、Viadialog等实验室和企业单位。最初的两位校长是米拉研究所的博士后MircoRavanelli和阿维尼翁的博士生TitouanParcollet。目前Speechbrain项目还在完善中,欢迎更多开发者加入。看到这里,Kaldi是不是觉得有些压力了呢?
