当前位置: 首页 > 科技观察

谈谈实时通讯中的AI降噪技术

时间:2023-03-19 15:56:49 科技观察

Part01概述在实时音视频通讯场景中,麦克风在采集用户语音的同时,也采集了大量的环境噪声。、电路地板噪声等)有一定效果,但对非平稳瞬态噪声(如餐厅噪声、地铁环境噪声、家庭厨房噪声等)降噪效果较差,严重影响用户通话经验。融合通信系统事业部生态赋能团队针对泛家庭、办公等复杂场景的上百种非平稳噪声问题,自主研发了基于GRU模型的AI音频降噪技术,通过算法和工程优化,降噪模型大小从2.4MB压缩到82KB,运行内存减少约65%;计算复杂度从约186Mflops优化到42Mflops,运行效率提升77%;在已有的测试数据集(实验环境)下,能够有效分离人声和噪音,将通话语音质量Mos评分(平均意见值)提升至4.25。本文将介绍我们团队是如何基于深度学习做实时噪声抑制,并在移动端和佳勤APP上实现的。全文将组织如下,介绍噪声的分类,如何选择算法来解决这些噪声问题;如何通过深度学习设计算法和训练人工智能模型;最后介绍AI降噪在目前场景下可以实现哪些效果和关键应用。Part02噪声分类及降噪算法选择在实时音视频的应用场景中,设备处于复杂的声学环境中,麦克风在采集语音信号的同时会采集到大量的噪声,这是一个非常大的挑战实时音频和视频质量。有各种类型的噪音。根据噪声的数学统计特征,噪声可分为两类:平稳噪声:噪声的统计特征在较长一段时间内不会随时间发生变化,如白噪声、电风扇、空调、汽车车内噪音等;non-stationarynoise噪声:噪声的统计特性随时间变化,如嘈杂的餐厅、地铁站、办公室、家庭厨房等。在实时音视频应用中,通话容易受到各种类型的噪声干扰,其中影响体验。因此,实时音频降噪成为实时音视频中的一项重要功能。对于稳定的噪声,如空调出风口的呼呼声或录音设备的背景噪声,随时间变化不会很大,可以估计和预测,通过简单的减法去除。有谱减法、维纳滤波和小波变换。对于非平稳噪声,如马路上呼啸的汽车声、饭店里盘子的撞击声、家庭厨房里锅的敲击声,都是随机突然出现的,无法估计和预测他们。固定的。传统算法难以估计和消除非平稳噪声,这就是我们使用深度学习算法的原因。Part03深度学习降噪算法设计为了提高音频SDK针对各种噪声场景的降噪能力,弥补传统降噪算法的不足,我们开发了基于RNN的AI降噪模块,结合传统降噪模块降噪技术和深度学习技术。着眼于家庭和办公使用场景的降噪处理,在噪声数据集中加入了大量的室内噪声类型,如办公室敲击键盘、拖拽办公桌和办公用品的摩擦声、拖拽椅子、厨房家庭嗡嗡声、地板砰砰声等。同时,为了在移动端实现实时语音处理,AI音频降噪算法将计算开销和库大小控制在极低的水平。计算开销方面,以48KHz为例,RNN网络处理每帧语音只需要17.5Mflops左右,FFT和IFFT每帧语音需要7.5Mflops左右,特征提取需要12Mflops左右,一共约42Mflops,计算复杂度与48KHzOpus编解码器相当。在某品牌的一款中端手机中,RNN降噪模块的CPU占用率在4%左右。在音频库的大小方面,开启RNN降噪编译后,音频引擎库的体积只增加了108kB左右。Part04网络模型和处理流程本模块使用RNN模型,因为RNN相对于其他学习模型(如CNN)携带时间信息,可以对时间序列信号进行建模,而不仅仅是单个音频输入输出帧。同时,该模型使用了门控循环单元(GRU,如图1所示)。实验表明,GRU在语音降噪任务上的性能略优于LSTM,并且由于GRU的权重参数较少,可以节省计算资源。与简单的循环单元相比,GRU有两个额外的门。是否使用resetgatecontrolstate来计算新的state,updategatecontrolstate会根据新的输入改变多少。这个更新门使GRU能够长时间记忆时间信息,这就是为什么GRU比简单的循环单元表现更好的原因。图1左边是简单的循环单元,右边是GRU模型的结构,如图2所示。训练好的模型会嵌入到音视频通信SDK中。通过读取硬件设备的音频流,将音频流分帧发送给AI降噪预处理模块。预处理模块会使用相应的特征(Feature)计算输出给训练好的模型,通过模型计算出相应的增益(Gain)值,利用增益值对信号进行调整,最终达到降噪的目的(如图3所示)。图2.GRU-basedRNN网络模型图3.上图为模型训练过程,下图为实时降噪过程Part05AI降噪处理效果及落地图4为前后语音频谱图noisereductionwithkeyboardknockingnoise对比一下,上半部分是降噪前的带噪语音信号,红色矩形框是键盘敲击噪声。下部是降噪后的语音信号。通过观察可以发现,大部分键盘敲击声都可以被抑制,声音损伤控制在较低水平。图4.目前AI降噪模型针对嘈杂语音降噪前后对比(通话时伴随键盘敲击声),已上线手机和佳勤APP,提升语音降噪效果手机和佳勤APP。对家庭、办公室等100多种噪音场景都有出色的抑制能力,同时保持声音不失真。下一阶段,我们将继续优化AI降噪模型的计算复杂度,使其能够广泛应用于物联网低功耗设备上。