一般情况下,可以使用均衡器来带出音乐中的低音部分,但麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员找到了更好的方法解决方案。
他们开发的新系统 PixelPlayer 使用人工智能来区分和过滤声音,使音乐听起来更响亮或更柔和。
将指定视频输入经过充分训练的PixelPlayer,系统可以随机过滤伴奏并识别声源,然后计算图像中每个像素的音量,然后通过“空间定位”确定产生相似声波的片段。
今年9月,欧洲计算机视觉会议将在德国慕尼黑举行。
会议上即将发表的一篇新论文详细讨论了“像素之声”。
“最好的情况是我们可以识别哪种乐器发出哪种声音,”麻省理工学院计算机科学与人工智能实验室的博士生、该论文的合著者赵航说。
PixelPlayer 的核心是基于乐器组合多模态训练的神经网络。
该数据集使用 Youtube 上未经修剪和未标记的视频。
其中,总共60小时的视频用于训练,其余用于验证和测试。
在训练过程中,研究人员向系统算法输入基于原声吉他、大提琴、单簧管、长笛和其他乐器的算法。
这只是 PixelPlayer 多机器学习框架的一部分。
经过训练的视频分析算法将从剪辑的帧中提取视觉特征。
这是系统的第二个神经网络,音频分析网络。
音频分析网络将声音分成片段并从中提取特征。
最后,音频合成网络将两个网络输出的特定像素和声波关联起来。
PixelPlayer进行完全自监督学习,因此人们不需要对数据进行注释,系统目前可以识别20种乐器。
赵航表示,更大的数据集增强了系统的识别能力,但并没有增强其识别乐器子类别的能力。
该系统还可以识别音乐元素,例如小提琴的谐波频率。
研究人员认为 PixelPlayer 可以进行声音编辑,或者帮助机器人理解动物、车辆和其他物体发出的环境声音。
他们写道:“我们希望我们的工作能够开辟新的研究途径,从视觉和听觉信号的角度实现声源分离。