本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。写歌作词,变换风格,继续作曲的AI,今天又来当编曲了!上传一段《Stay》,一键按下:伴奏和人声就轻松分离:https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247594465&idx=3&sn=83a18be3019dbecd6040031618d112dc&chksm=e8d1c693dfa64f85e7db0f5157d533361da6c8b71a9ceacdfc29a28399bd6d0bade7a046014f&token=497180065&lang=zh_CN#rdThevocalshaveaclearsenseofsinginginanopenarea,andthebackgroundmusiccanbe直接用于混音和编辑!如此惊人的效果也在Reddit上引发热议:这项研究的主要负责人孔秋强来自字节跳动,全球最大的古典钢琴数据集GiantMIDI-Piano,去年也是他主导发布的。那么今天他带来了什么样的AI音乐人呢?让我们来看看。基于深度残差网络的声源分离这是一个包含相位估计的音乐源分离(MSS)系统。首先,将幅度(Magnitude)和相位(Phase)解耦,估计出复数理想比模板(cIRM)。其次,为了实现更灵活的幅度估计,结合了有界掩码估计和直接幅度预测。最后,为MSS系统引入了一个143层的深度残差网络(DeepResidualUNets),并通过使用残差编码块(REB)和残差解码块(RDB)来增加其深度:残差编码块和残差卷积在块的中间还引入了中间卷积块(ICB),以提高残差网络的表现力。每个残差编码块由4个残差卷积块(RCB)组成,这些残差卷积块又由两个卷积层组成,内核大小为3×3。每个残差解码块由8个卷积层和1个反卷积层组成。实验结果接下来,该系统在MUSDB18数据集上进行了测试。MUSDB18中的训练/验证集包含100/50完整立体声轨道,分别包括单独的人声、伴奏、贝斯、鼓和其他乐器。在训练时,上述系统通过随机混合来自同一来源的两个3秒剪辑,然后作为一个新的3秒剪辑进行训练,用于并行混合音频数据增强。以信号失真率(SDR)为标准,可以看出ResUNetDecouple系统在分离人声、低音、其他和伴奏方面明显优于以往的方法:在消融实验中,143层的表现残差网络也证实,结合有界掩模估计和直接幅度预测确实可以提高声源分离系统的性能。介绍本研究的论文作者为孔秋强,毕业于华南理工大学,获学士和硕士学位,获博士学位。英国萨里大学电子信息工程学士学位。2019年加入字节跳动语音、音频和音乐智能研究组,主要负责音频信号处理和声音事件检测领域的研究。论文:https://arxiv.org/abs/2109.05418试用版:https://huggingface.co/spaces/akhaliq/Music_Source_Separation开源地址:https://github.com/bytedance/music_source_separation参考链接:https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/
