当前位置: 首页 > 科技观察

谷歌推出AlmightyScoreAI:歌曲听一遍,钢琴、小提琴的所有乐谱都有了

时间:2023-03-22 16:46:27 科技观察

还精通“十八般乐器”,包括钢琴、小提琴、吉他等。这不是人类的音乐大师,而是谷歌的“多任务多轨”music-to-note模型MT3。首先需要解释一下什么是多任务和多轨。通常一段音乐由多台乐器演奏,每段音乐就是一个音轨,多任务就是同时还原不同音轨的乐谱。谷歌已将论文提交给ICLR2022。恢复多轨乐谱自动音乐转录(AMT)比自动语音识别(ASR)困难得多,后者都同时转录多种乐器,同时保留精细的音高和时间信息。多轨自动音乐转录数据集更加“低资源”。现有的开源音乐转录数据集一般只包含一到几百小时的音频,这与市场上通常需要数万小时的语音数据集相比是非常小的。以前的音乐转录主要集中在任务特定的架构上,为每个任务的各种乐器量身定制。因此,受低资源NLP任务迁移学习的启发,作者证明了通用Transformer模型可以执行多任务AMT,并显着提高低资源仪器的性能。作者使用了一个单一的通用Transformer架构T5,它是一个T5“小”模型,包含了大约6000万个参数。该模型在编码器和解码器中使用了一系列标准的Transformer自注意力“块”。为了产生一系列输出标记,该模型使用贪心自回归解码:给定一个输入序列,将预测下一个出现概率最高的输出标记附加到序列中,然后重复该过程直到结束。MT3使用MelSpectrogram作为输入。对于输出,作者构建了一个受MIDI规范启发的标记词汇表,称为“类MIDI”。所得乐谱由开源软件FluidSynth渲染成音频。此外,还需要解决不同音乐数据集的不平衡和不同架构的问题。作者定义的通用输出标记还允许模型同时在多个数据集的混合上进行训练,类似于使用多语言翻译模型同时训练多种语言。这种方法不仅简化了模型设计和训练,而且增加了模型可用的训练数据的数量和多样性。实际表现MT3在所有指标和所有数据集上的表现始终优于基线。训练期间的数据集混合提供了比单一数据集训练更大的性能改进,特别是对于“低资源”数据集,如GuitarSet、MusicNet和URMP。近日,谷歌团队也发布了MT3的源代码,并在HuggingFace上发布了一个demo。但是,由于转换音频需要GPU资源,因此在HuggingFace上,建议您在Colab上运行JupyterNotebook。论文地址:https://arxiv.org/abs/2111.03017源码:https://github.com/magenta/mt3演示地址:https://huggingface.co/spaces/akhaliq/MT3