当前位置: 首页 > 科技赋能

麻省理工学院的又一突破!利用AI过滤音源,让音乐更加动听

时间:2024-05-22 09:53:32 科技赋能

一般情况下,可以使用均衡器来带出音乐中的低音部分,但麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员找到了更好的方法解决方案。

他们开发的新系统 PixelPlayer 使用人工智能来区分和过滤声音,使音乐听起来更响亮或更柔和。

将指定视频输入经过充分训练的PixelPlayer,系统可以随机过滤伴奏并识别声源,然后计算图像中每个像素的音量,然后通过“空间定位”确定产生相似声波的片段。

今年9月,欧洲计算机视觉会议将在德国慕尼黑举行。

会议上即将发表的一篇新论文详细讨论了“像素之声”。

“最好的情况是我们可以识别哪种乐器发出哪种声音,”麻省理工学院计算机科学与人工智能实验室的博士生、该论文的合著者赵航说。

PixelPlayer 的核心是基于乐器组合多模态训练的神经网络。

该数据集使用 Youtube 上未经修剪和未标记的视频。

其中,总共60小时的视频用于训练,其余用于验证和测试。

在训练过程中,研究人员向系统算法输入基于原声吉他、大提琴、单簧管、长笛和其他乐器的算法。

这只是 PixelPlayer 多机器学习框架的一部分。

经过训练的视频分析算法将从剪辑的帧中提取视觉特征。

这是系统的第二个神经网络,音频分析网络。

音频分析网络将声音分成片段并从中提取特征。

最后,音频合成网络将两个网络输出的特定像素和声波关联起来。

PixelPlayer进行完全自监督学习,因此人们不需要对数据进行注释,系统目前可以识别20种乐器。

赵航表示,更大的数据集增强了系统的识别能力,但并没有增强其识别乐器子类别的能力。

该系统还可以识别音乐元素,例如小提琴的谐波频率。

研究人员认为 PixelPlayer 可以进行声音编辑,或者帮助机器人理解动物、车辆和其他物体发出的环境声音。

他们写道:“我们希望我们的工作能够开辟新的研究途径,从视觉和听觉信号的角度实现声源分离。

猜你喜欢