当前位置: 首页 > 科技观察

让机器像人一样听音乐,Facebook开源Demucs项目

时间:2023-03-20 02:11:49 科技观察

音源分离是利用技术将歌曲分解成它的组成部分,如人声、贝斯和鼓。这类似于人脑如何将单个对话与满屋子的周围噪音和喋喋不休分开。如果你有原始的工作室多轨录音,这很容易做到,你只需调整混音以分离一个轨道。但是如果你从一个普通的MP3音频文件开始,所有的乐器和声音都被混合到一个立体声录音中,即使是最复杂的软件程序也很难精确地挑选出一个部分。FacebookAI的研究人员开发了一个系统,可以做到这一点——精度惊人。它是由Facebook位于巴黎的人工智能实验室的科学家亚历山大·德福塞(AlexandreDefossez)创建的。Defoetz的系统叫做Demucs,这个名字来源于“音乐资源的深度提取器”,它的工作原理是检测声波中的复杂模式,建立对每种乐器或声音的波形模式的高层次理解,然后使用人工智能整齐地分开它们。像Demucs这样的技术不仅可以帮助音乐家学习复杂的吉他即兴演奏;Defoetz说,有一天它可能会让人工智能助手在嘈杂的房间里更容易听到语音命令。Defoss表示,他的目标是让AI系统能够像现在能够准确地区分单张照片中的不同对象一样善于识别音频源的组成部分。“我们在音频方面不在同一水平,”他说。一种更好的分解声波的方法声源分离长期以来一直让科学家着迷。1953年,英国认知科学家ColinCherry创造了“鸡尾酒会效应”一词来描述人类在拥挤嘈杂的房间里专注于单一谈话的能力。工程师们首先尝试通过调整立体声录音中的左右声道,或调整均衡器设置来提升或削减某些频率来隔离歌曲的人声或吉他。基于频谱图的人工智能系统在分离以单一频率发声或共鸣的乐器音符方面相对有效,例如钢琴或小提琴旋律。这些旋律在频谱图上显示为清晰、连续的水平线。但是,隔离会产生残留噪音的撞击声,例如鼓声、贝司拍打声,是一项非常困难的任务。鼓点感觉像是一个单一的、实时的整体事件,但它实际上由不同的部分组成。对于鼓,它包括覆盖较高频率范围的初始起音,然后是较低频率范围内的无音高衰减。Defoss说,普通小军鼓“在频率方面无处不在”。声谱图只能将声波表示为时间和频率的组合,无法捕捉到这种细微差别。因此,他们将鼓声或拍手低音处理成几条不连贯的垂直线,而不是一个整齐、无缝的声音。这就是为什么被频谱图分开的鼓和贝司音轨听起来常常模糊不清的原因。足够智能的系统可以重建缺失的基于AI的波形模型,从而避免了这些问题,因为它们不会尝试将歌曲放入严格的时间和频率结构中。Defoss解释说,波形模型的工作方式与计算机视觉相似,计算机视觉是人工智能的研究,旨在让计算机学习识别数字图像中的模式,以获得对视觉世界的高级理解。计算机视觉使用神经网络来检测基本模式——类似于发现图像中的角和边缘——然后推断出更高层次或更复杂的模式。“波形模型的工作方式非常相似,”Defoss说。他解释了波形模型如何花费几秒钟来适应歌曲中的主要频率——人声、贝斯、鼓或吉他——并为每个元素生成单独的波形。然后它开始推断更高尺度的结构以添加细微差别并精细地雕刻每个波形。Defouz说他的系统也可以比作检测和记录地震的地震仪。在地震期间,地震仪的底座会移动,但悬挂在其上的重物不会移动,从而允许附在重物上的笔绘制记录地面运动的波形。AI模型可以检测同时发生的多个不同地震,然后推断出每个地震的震级和强度的详细信息。同样,Defouz的系统分析和隔离歌曲的本质,而不是根据预设的频谱图结构对其进行分段。Defoss解释说,构建系统需要克服一系列复杂的技术挑战。他首先使用了Wave-U-Net(https://github.com/f90/Wave-U-Net)的底层架构,这是一种早期为音乐源分离而开发的人工智能波形模型。但他还有很多工作要做,因为频谱图模型优于Wave-U-Net。他通过添加线性单元来微调波形网络中分析模式的算法参数。Defoetz还添加了长短期记忆,这种结构允许网络处理整个数据序列,例如一段音乐或一段视频,而不仅仅是单个数据点,例如图像。Defozi还提高了Wave-U-Net的速度和内存使用率。这些修改帮助Demucs在重要方面优于Wave-U-Net,例如它如何处理一种声音压倒另一种声音的问题。“你可以想象一架飞机起飞,引擎的噪音淹没了一个人的声音,”Defoss说。以前的wave模型通过简单地删除部分原始音频源文件来解决这个问题,但它们无法重建丢失材料的重要部分。Defoss增强了Demucs解码器,以便“Demucs可以重新创建它认为存在但在混音中丢失的音频。”这意味着他的模型可以重新合成轻柔的钢琴,因为它知道应该呈现什么声音,而这些钢琴可能已经被响亮的铙钹音符丢失了。这种重构和分离的能力使Demucs比其他波形模型更具优势。Demucs已经匹配了最好的波形技术,并且“远远超过”了最先进的光谱技术,Defoetz说。在盲听测试中,38名参与者听取了50条测试曲目中的8秒随机样本,这些曲目由三种模型分开:Demucs、LeadingWaveform和Spectrogram技术。观众将Demucs评为在质量和没有背景噪音或失真等伪影方面表现最佳的产品。Demucs引起了AI爱好者的兴趣,精通技术的读者可以从GitHub(https://github.com/facebookresearch/demucs)下载Demucs的代码。该代码使用MusDB数据集来分离音乐源。Defoss解释说,随着Demucs的发展,它将为人们在家中用来创作音乐的数字音频工作站带来声音的真实性。这些工作站提供可唤起特定时代或风格的合成乐器,通常需要对原始硬件进行大量数字改造。想象一下,如果音乐源分离技术可以完美地捕捉50年代摇滚歌曲中用电子管放大器演奏的老式空心电吉他的声音。Demucs让音乐爱好者和音乐家更接近这一功能。通过:https://tech.fb.com/one-track-minds-using-ai-for-music-source-separation/