会演奏乐器的人,在生活中自带光环!但是,学一门乐器真的很难。多少人陷入了从开始到放弃的死循环。但是,如果你不会弹奏乐器,你真的不会演奏出好音乐吗?近日,美国麻省理工学院(MIT)与沃森人工智能实验室(MIT-IBMWatsonAILab)联合开发了一款AI模型FoleyMusic,可以根据演奏手势完美还原音乐的原声!而且是不区分乐器的那种,小提琴,钢琴,尤克里里,吉他,都可以。只要拿起乐器,就是一场专业的音乐会!如果喜欢不同的音色,还可以编辑音乐风格,A键,F键,G键都可以。这篇名为《Foley Music:Learning to Generate Music from Videos》的技术论文已经被ECCV2020收录。接下来我们看看AI模型是如何还原音乐的?FoleyMusic会演奏多种乐器,就像一段舞蹈配乐需要了解肢体动作和舞蹈风格一样。为乐器演奏家创作音乐,您还需要了解手势、动作和使用的乐器。给定一段表演视频,AI会自动锁定目标对象的身体关键点(BodyKeypoints),以及演奏的乐器和声音。身体关键点:由AI系统中的视觉感知模块(VisualPerceptionModel)完成。它以身体姿势和手势的两个指标作出回应。一般身体会提取25个off2D点,手指会提21个2D点。乐器声音提取:使用音频表示模型(AudioRepresentationModel),该模块的研究人员提出了乐器数字接口(MIDI)的音频表示形式。这就是FoleyMusic与其他模型的不同之处。据研究人员介绍,对于一个6秒的表演视频,通常会产生大约500个MIDI事件,而这些MIDI事件可以很容易地导入到标准的音乐合成器中,生成音乐波形。完成信息提取和处理后,接下来,Visual-AudioModel会将所有信息进行整合转换,生成最终匹配的音乐。我们来看看它的完整架构图:主要由视觉编码、MIDI解码和MIDI波形输出三部分组成。视觉编码:对视觉信息进行编码,并将其传递给转换器MIDI解码器。从视频帧中提取关键坐标点,并使用GCN(Graph-CNN)捕捉人体动态随时间变化的潜在表征。MIDI解码器:通过Graph-Transformers对人体姿势特征与MIDI事件的相关性进行建模。Transformers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它根据人体特征准确预测MIDI事件的顺序。MIDI输出:使用标准音频合成器将MIDI事件转换为最终波形。实验结果研究人员证实,FoleyMusic远优于其他现有模型。在对比实验中,他们使用了三个数据集来训练FoleyMusic,并选取了9种乐器,并与其他基于GAN、SampleRNN和WaveNet的模型进行了对比。其中,数据集为AtinPiano、MUSIC和URMP,涵盖超过11个类别的约1000个高质量音乐演奏视频。乐器有风琴、贝司、巴松管、大提琴、吉他、钢琴、大号、四弦琴和小提琴,视频时长均为6秒。以下是量化评测结果:可以看出FoleyMusic模型在Bass(低音)乐器性能上的预测性能最高达到72%,而其他模型最高仅达到8%。此外,从以下四个指标来看,结果更为突出:正确性:生成的歌曲与视频内容之间的相关性。噪音:音乐噪音很小。同步:歌曲在时间上与视频内容最接近。黄色是拟音音乐模型。其各项指标的表现远超其他车型。正确性、噪声和同步性三个指标中最高的超过0.6,另一个最高的不到0.4。就是这样。另外,研究人员发现,与其他基线系统相比,MIDI事件有助于提高音质、语义对齐和时间同步。描述GAN模型:以人体特征为输入,通过对其姿势特征生成的声谱图进行识别来判断其真假。反复训练后,将频谱图通过傅里叶逆变换转换为音频波形。SampleRNN:它是一种无条件的端到端神经音频生成模型。与WaveNet相比,它具有更简单的结构并在样本级别更快地生成语音。WaveNet:是GoogleDeepmind推出的一种语音生成模型,在文本转语音和语音生成方面表现出色。此外,该模型的优势在于其可扩展性。MIDI表示是完全可解释和透明的,因此可以编辑预测的MIDI序列以在A\G\F键中生成不同风格的音乐。如果使用波形或频谱图作为音频表示模型,则无法实现此功能。最后,研究人员在论文中表明,该研究通过人体关键点和MIDI表示建立了视觉和音乐信号之间的关联,实现了音乐风格的可扩展性。为当前视频与音乐关联性的研究开辟了一条更好的研究路径。以下是YouTube视频,一起来感受AI音乐吧!https://www.youtube.com/watch?v=bo5UzyDB80E
