当前位置: 首页 > 后端技术 > Java

语音去混响算法在实时通信服务中的实践

时间:2023-04-01 19:02:24 Java

指南:随着音视频通信会议越来越普及,参会者在不同的环境中遇到越来越明显和不同的混响场景,比如大型会议室场景、玻璃会议室场景,以及隔音材料较差的小房间等。为了保证更好的听觉清晰度和舒适度,通信中对语音去混响的需求变得越来越重要和迫切。本文阐述了网易云信在语音去混响和改善通信效果方面的一些研发进展和观点,重点研究了基于双mic信号相关方案的自适应组合,总体目标是提高去混响效果。在保真声音效果的情况下混响。正文|网易云信高级算法工程师张龙一、语音混响简介(一)混响简介下图描述了语音混响的产生原因和过程。尺寸;反光材料;扬声器到麦克风的距离等(注意区分回声的含义)如下图,按照到达时间的先后顺序,混响一般分为:直达声+早期混响+晚期混响,它们在声学理解上有不同的含义。下图为语音混响效果图:(2)混响与抗混响研究的发展历程。最初的研究来自于对声音在房间内传播现象的基础研究,随后被应用到音乐厅、教室等空间的声学设计中。良好的声音沟通包括音乐、人声等;其次,研究了混响对语音清晰度的影响;一些研究人员注意到混响带来的积极好处:提高语音的自然度、层次感和空间感等。包括可懂度的提高。研究人员使用人工混响来改善各种体验,例如娱乐、游戏和音乐;如下图所示,网易云信具备基于FeedbackDelayNetwork(反馈延迟网络)方案提供人工混响的能力;从1970年代开始,语音去混响的研究主要集中在混响对通话和录音的负面影响,提高清晰度和质量;2004-2005年后,免提通讯和视频会议出现,结合语音助手11年后(尤其强调领域),语音混响的研究和应用越来越广泛。根据语音去混响的应用,我们对评价性能的指标进行了分类:二、关键算法及研究进展结合算法实践和计算考虑,网易云信目前实现语音去混响从传统算法出发,配合噪声减少算法改善通信体验。下图根据信号模型和目标大致对语音混响算法进行了分类:本文主要关注以下几点:线性预测进化算法;相关抑制算法;然后结合深度学习讨论后续计划。(1)AWPE算法模型转换可得:Xt^m表示第m个麦克风在t时刻接收到的信号,Lm表示麦克风数量;hk^m表示源s到达第m个麦克风的脉冲响应,Lh为脉冲响应长度;nt^m表示第m个麦克风在时间t接收到的加性噪声??信号分量。其中表示麦克风m在时间t之前及之前的时间D接收到的数据。dt^m为前述预反射信号,即去混响的目标信号;当然,也有直接将源信号s求解为目标信号的模型,但都不是主流,因为预混响一般对听觉和识别系统都是有利的。继续求解上述模型可以得到:将上述模型进行时频域转换和引入递归最小二乘变换可以得到:求解上述目标函数得到如下解:上述解可以为总结为以下步骤:)相关降噪去混响算法基于假设后期混响信号部分为散射场噪声,利用麦克风间散射场噪声的相关估计方法计算后期混响分量,然后用谱减法估计增益。戒指。经验表明,此类算法在降低散射场噪声方面具有较好的性能。信号模型:计算如下中间结果:最后得到降噪增益,将增益应用到输入信号上可以解决混响目标:(3)综合应用通信任务,网易云信目前专注于AWPEconcatenationreduction的实现噪声解决方案;同步考虑散射场噪声强的场景结合CDR抑制算法提升性能;通信中的上行链路必须包含降噪模块,去混响算法需要配合降噪实现联合优化性能。一般通过模块和参数调试实现。智能语音任务一般采用线性语音去混响进行前置增强处理:未来趋势:\三、算法实现和运行优化关注上面第二节算法的具体实现:设置buffer访问机制(涉及麦克风个数、历史帧个数、频点等),减少计算时间;RLS算法注意使用Woodbury矩阵恒等式规则代替矩阵求逆;如公式所示,这类统计信息可以尝试使用平滑的更新机制代替;注意矩阵的一部分要尽量对角化,甚至实数化以减少计算量;可以通过表格化和频率索引来减少计算量。-设置理想的散射场噪声模型。4.结果报告及后续展望(一)目前的结果展示目前结合降噪,我们在混响阶段设置了语音保真度优先级;目前算法处理混响能力在800ms~1s左右,最重要的调试参数是:遗忘因子和块数。(2)后续展望在通信领域:遗忘因子的自适应实现方案;深度学习方案实现了语音混响与降噪的融合,替代了目前结合传统算法的方案。网易云信当前优化:未来:参考文献[1]Xiang,Teng,JingLu,andKaiChen.“多通道自适应去混响对目标扬声器位置的突然变化具有鲁棒性。”美国声学学会杂志145.3(2019):EL250-EL256。[2]谷口彻等人。“用于混响语音识别的具有不同源先验的广义加权预测误差去混响。”2019年IEEE音频和声学信号处理应用研讨会(WASPAA)。IEEE,2019.[3]唐新宇,等。“用于多通道语音去混响的基于时变遗忘因子的QRRLS算法。”2020IEEE信号处理与信息技术国际研讨会(ISSPIT).IEEE,2020.[4]施瓦茨,安德烈亚斯。使用空间相干模型的去混响和稳健语音识别。指责。Friedrich-Alexander-Universit?tErlangen-Nürnberg(FAU),2019.作者介绍张龙,就职于网易云信音视频实验室,目前从事音频信号增强和动态增益控制的研发工作。