当前位置: 首页 > 网络应用技术

使用Pytorch的数据操作和音频信号处理的转换

时间:2023-03-07 18:26:05 网络应用技术

  Torchaudio:Pytorch的音频库

  Torchaudio的目标是将Pytorch应用于音频字段。通过支持Pytorch,Torchaudio遵循相同的概念,即提供强大的GPU加速度,专注于通过亲笔签名系统的培训功能,以及一致的样式(Tensor名称和维度名称)因此,它主要是机器学习库,而不是通用信号处理库。在Torchaudio中可以看到Pytorch的好处,因为所有计算都是通过Pytorch操作执行的,这使其易于使用,并且感觉就像是自然的扩展。

  这是相应的版本和支持的Python版本。

  / /,要使用Anaconda安装最新版本,请运行:

  要安装最新的PIP轮毂,请运行:

  (如果您尚未安装火炬,则将从PYPI默认设置安装。如果您需要不同的火炬配置,请在运行此命令之前安装火炬。)

  请注意,每天晚上都是根据Pytorch的建筑建造的。

  pip

  康达

  如果您的系统配置不在上述配置中,则可以从源代码构建Torchaudio。

  这将需要LibSox v14.3.2或更高版本。

  OSX(自制软件):

  Linux(Ubuntu):

  Python

  另外,施工过程可以静态地构建libsox和一些可选的编解码器,而Torchaudio可以通过设置环境变量来链接它们。将在施工扩展之前获得和构建施工过程,并构建Libmad,Leame,Flac,Flac,Vorbis,Vorbis,opus和Opus和libsox。此过程需要和平。

  众所周知,这适用于Linux和Unix发行版,例如Ubuntu和Centos 7和Macos。如果您在新系统上尝试此操作并找到解决方案来制作您的工作,请随时分享。

  故障排除检查和构造系统类型... https://www.shouxicto.com/article/config.guess:它无法猜测系统类型

  因为编解码器的配置文件是旧的,所以无法正确检测到新的环境,例如jetson aark..最新或替换此文件。/master/config.guesss

  查看另一个:#658

  使用“ build_sox”

  如果您在Anaconda环境中遇到类似的错误:

  跑步之前

  默认情况下,在OSX和Linux中,Torchaudio使用SOX作为后载和保存文件。您可以使用以下命令将后端更改为音件。有关安装说明,请参见Soundfile。

  与Sox不同,目前的原始文件不支持MP3。

  API在这里引用:http://pytorch.org/audio/

  由于Torchaudio是一个机器学习库,并建立在Pytorch上,因此Torchaudio围绕以下命名协议进行标准化。将“频道”的数量作为第一个维度和时间作为最后一个维度(如果适用)。pytorch的大小。对于大名字和小名,前缀(例如“张力”(,)),而尺寸名称没有以前的点缀(例如“尺寸(频道,时间)张力”)

  转换期望并返回以下维度。

  (...,2)支持多数的数量,并提供了Torchaudio将Torchaudio和这种张力转换为其幅度和阶段的数量。此外,在文档中,我们使用省略的编号“ ...”作为一个地方在其他维度可用的地方,例如可选批处理处理和通道尺寸。

  请参考贡献。md

  这是一个用于下载和准备公共数据集的实用程序库。我们不要托管或分发这些数据集,不保证其质量或公平性,也不声称您有使用数据集的许可证。确定您是否有权根据数据集的许可使用数据集。

  如果您是数据集所有者,并且想更新任何零件(描述,引用等),或者您不希望您的数据集包含在此库中,请通过GitHub问题与我们联系。ML社区!

  https://github.com/pytorch/audio

  作者:hai bao?HDZ Core Group成员,全堆栈领域的高质量创作者以及每周c的前十名C