当前位置: 首页 > 科技观察

10000多首钢琴作品,1000多小时,字节跳动全球最大钢琴MIDI数据集

时间:2023-03-12 10:52:51 科技观察

近日,字节跳动发布全球最大古典钢琴数据集GiantMIDI-Piano,包含来自2784位作曲家文件的10854首作品的MIDI,总长度1,237小时。为了完成数据集的构建,研究人员开发并开源了一个高精度的钢琴记谱系统。钢琴转录是将钢琴录音转换为乐谱(例如MIDI格式)的任务。在人工智能领域,钢琴转录类似于音乐领域的语音识别任务。然而,长期以来,计算机音乐领域一直缺乏大规模的钢琴MIDI数据集。近日,字节跳动发布了全球最大的古典钢琴数据集GiantMIDI-Piano[1]。在数据规模上,数据集中不同轨道的总时长是谷歌MAESTRO数据集的14倍。论文地址:https://arxiv.org/abs/2010.07061项目地址:https://github.com/bytedance/GiantMIDI-Piano字节跳动研究科学家表示:“GiantMIDI-Piano将所有古典钢琴作品转录成MIDI格式,并向世界开放,此举旨在推动音乐技术和计算机音乐学的发展”。GiantMIDI-Piano的用途包括但不限于:音乐信息检索、自动作曲、智能音乐创作、计算音乐学等。下图为GiantMIDI-Piano前100位不同作曲家的曲目数量分布:GiantMIDI-Piano的特点是采用钢琴转换技术,通过电脑自动将音频文件转换成MIDI文件,并通过该技术转换大规模的MIDI数据集。研究人员首先从开放的国际音乐数字图书馆IMSLP中获取了18067位作曲家的143701首作品标题信息,并通过YouTube搜索了60724首音频。然后,研究人员设计了一种基于音频卷积神经网络(CNN)的钢琴独奏检测算法,从中筛选出来自2,786位作曲家的10,854首钢琴作品。最后,研究人员开发并开源了高分辨率钢琴转录系统(High-resolutionPianoTranscriptionwithPedalsbyRegressingPreciseOnsetsandOffsetsTimes)[2],将所有音频转录成MIDI文件,进而构建了GiantMIDI-Piano数据库.数据集特征GiantMIDI-Piano数据集具有以下特征:包含来自2,784位作曲家的10,854首乐曲的MIDI文件。包含34,504,873个注释。所有曲目都是不同的,MIDI文件的总长度为1,237小时。它是通过高精度转码系统对音频进行转码制作的。转码后的MIDI文件包括音符开始时间、速度和踏板信息。GiantMIDI-Piano在Maestro钢琴数据集上的相对错误率为0.094,F1值为96.72%。所有的MIDI文件都有统一的格式,文件名格式为“surname_first_track_name_youtubeID.mid”。包含作曲家国籍和出生年份信息。数据集大小为193Mb。根据CCBY4.0许可。钢琴谱转换钢琴谱转换是一项非常具有挑战性的任务。其中一个原因是钢琴是一种和弦乐器。有同时按下多个琴键的情况,不同声音的组合有上万种。为此,字节跳动开源了一套高精度钢琴转录系统[2]:论文地址:https://arxiv.org/abs/2010.01815项目地址:https://github.com/bytedance/piano_transcription频谱转换系统的功能包括:能够将具有任意数量的声音、任意复杂性,甚至是两架钢琴或多架钢琴的钢琴音频转换为MIDI文件。实现了任意时间精度的音符检测,突破了以往算法32毫秒的识别精度限制。每个音符都实现了128粒速度识别。还包括识别钢琴音符和钢琴踏板。在MAESTRO评价数据集上取得了96.72%的F1值,超越了谷歌系统的94.80%。预训练模型的代码在Apache2.0许可下开源。在钢琴中,琴键的触发(onset)、抬起(offset)、按下状态(frame)和力度(velocity)是钢琴音色的重要因素。字节跳动研究人员提出了一种通过预测触发器和提升绝对时间来进行钢琴转录的方法。训练时,网络的训练标签不再是0或1的二进制值,而是与绝对时间相关的连续值g(△),从而实现任意精度的钢琴转换:训练好的标签可以表示触发在毫秒级和提升偏移:研究人员建立了一个基于深度神经网络的跨光谱模型。首先将音频波形转换为对数梅尔频谱图作为输入特征。卷积递归神经网络用作声学模型来分别预测触发、提升和按压状态和力。每个声学模型包含8个卷积层以提取高级抽象特征,以及2个双向递归神经网络层(GRU)以学习音频的长期依赖性。每个声学模型的输出都是0到1之间的连续值。模型训练完成后,在推理阶段,研究人员提出了一种计算绝对触发和提升时间的算法,可以预测音符的触发和提升随时精度:00:00/00:00倍速转码结果如下图所示为朗朗的《爱之梦》片段的音频log-mel谱图,音符转调结果,踏板转调结果:另外,研究人员使用一台名为YamahaDisklavier的自动演奏钢琴演奏转录的MIDI,再现了伟大钢琴家的历史演奏。业内分析人士认为,这项工作无疑令人兴奋,字节跳动或将这项技术应用于后疫情时代的在线音乐直播和智能音乐创作。例子见:自动弹奏钢琴的复原李云迪《钟》:https://www.bilibili.com/video/BV1JD4y1d7Pn自动弹奏钢琴的复原古尔德1981年《哥德堡变奏曲》:https://www.bilibili.com/视频/BV1M541177x4