当前位置: 首页 > 后端技术 > Java

HMSCore音频编辑服务提供音源分离和空间音频渲染,助力快速进入3D音频世界

时间:2023-04-01 16:22:16 Java

从单声道、立体声、环绕声到立体声,音频播放技术的迭代演进,还原真实世界的声音。其中,立体声技术采用信号处理的方法,模拟到达双耳的声音信号,将声场还原到三维空间,更贴近真实世界。借助这一技术,各厂商在游戏、影视、音乐等场景为用户创造了更加逼真、自然、沉浸式的听觉体验,实现了更好的用户订阅增长。传统3D音频的制作需要获取原始的副轨素材(如录制的人声、钢琴音色等),使用专业的数字音频工作站(DAW)和3D混音插件进行手工制作,因此生产周期长,生产效率低,成本高,门槛高。此外,由于开发者没有歌曲的原轨,通过传统方式制作3D音效非常困难。HMSCore音频编辑服务(AudioEditorKit)提供音源分离(获取子轨)和空间音频渲染能力。开发者只需输入立体声即可快速生成3D音频内容,提升用户音频体验,增强产品竞争力!HMSCoreAudioEditingService3DAudioGenerationSchematicDiagramAudioSourceSeparationTechnology由于我们目前接触到的音频多为立体声,所以所有的音频对象(比如音乐中的人声、钢琴、吉他等)都进行了左右混音正确的渠道。不能轻易分离,更不用说在不同的空间位置渲染,所以在立体中分离特定元素是3D的核心技术。华为算法团队通过对大量音乐进行深度学习建模,结合传统信号处理能力,最终实现了声源分离:首先,利用短时傅立叶变换(STFT)将一维音频信号转化为二维音频信号。-维时间谱;然后,将得到的二维时间谱和原始一维时域信号作为双流输入,通过多层残差编码训练得到目标乐器的隐空间表达。数据量;最后,进一步进行一系列变换,矩阵最终恢复为原始物体立体声信号。以上处理过程中使用的变换矩阵和网络结构是华为独有的技术,针对不同乐器的特性专门设计,能够保证每一种乐器都尽可能的分离干净,提供足够高的音质。3D的优质音频。跟踪材料。涉及的核心能力包括:1.音频信号特征提取:包括通过编码器直接从时域信号中提取特征,以及通过短时傅立叶变换从时域信号中提取时谱特征;2.深度学习模型构建:加入残差模块和注意力机制,增强不同乐器的和声建模能力和时序关联能力;3.多通道维纳滤波:结合传统信号处理能力,通过深度学习建模关系,构建和处理滤波器系数,预测物体和非物体的功率谱。音频分离技术示意图目前HMSCore已经开放了12种音源分离能力(人声、伴奏、鼓、小提琴、贝司、钢琴、木吉他、电吉他、弦乐、主唱、伴奏伴奏和管弦乐),帮助开发者快速提取他们想要的乐器进行3D编辑。空间音频渲染技术仅通过两只耳朵聆听外界声音。为什么人类可以分辨声源的位置?这是由于从声源传递到两只耳朵的声音存在细微差别,包括到达时间、接收到的能量和相位差等信息。这些信息差异被整合到一系列称为头部相关传递函数(HRTF)的传递函数中。通过将HRTF叠加到单点声源上,我们可以虚拟出现实世界中声音的方位直达声部分。为了解决因头型、肩宽等人体体征差异导致HRTF因人而异的问题,我们通过大量数据的分析,设计了一套更具普适性的HRTF,让大家可以享受3D音频。此外,为了在空间中制造声音的反射、散射、干涉等物理现象,我们还通过叠加一系列的房间响应函数(RIR)来构建真实的空间,形成所谓的混响。因此,通过一系列的HRTF和RIR对音源进行滤波,我们就可以将之前分离出来的素材进行3D化,形成3D音乐。空间音频渲染技术示意图目前,HMSCore音频编辑服务提供的音源分离和空间音频渲染服务相结合,已经应用于华为音乐的进阶音效。享受空旷的音效或纯人声,感受3D音效的魅力。上述技术均来自华为2012实验室,通过HMSCore音频剪辑服务向开发者开放,为用户带来音乐音频领域差异化的3D音频体验。更多HMSCore音频编辑服务详情请访问华为开发者联盟-HMSCore音频编辑服务官网了解更多>>访问华为开发者联盟官网获取开发指导文档华为移动服务开源仓库地址:GitHub,关注我们Gitee,第一时间了解HMSCore最新技术资讯~