WebRTC(真实时间通信)作为一种开源技术,支持Web浏览器执行真实的语音或视频对话,解决了Internet音频和视频通信的技术门槛,并且正逐渐成为全球标准。
在过去的十年中,在许多开发人员的贡献下,该技术的应用方案已越来越广泛地使用。智能技术和Rongyun的创新实践(Rongyun Global Internet通信云服务编号)。
人工智能技术在音频和视频中的应用正在越来越广泛地使用。在音频方面,人工智能技术主要用于噪声支持,Echo删除等。在视频方面,人工智能技术甚至在虚拟背景,视频Ultra -Resolution等方面更加什至使用。
AI声音降低
降低语音噪音有很多年的历史。最早使用仿真电路降噪方法。随着数字电路的开发,降低算法取代了传统的仿真电路,这极大地改善了降低语音噪声的质量。这些经典算法基于统计理论的估计,可以消除消除的统计理论估计。稳态的噪声干净。对于不稳定的噪音,例如键盘和桌子的声音,汽车的声音在路上,经典算法是无能的。
AI声音降低降低。它基于大量的语料库,一种复杂的算法,结合了连续的训练和学习,消除了引用的繁琐和含糊的参考过程。当处理非稳定噪声时,降低语音噪声具有自然的优势。它可以识别非稳定数据的特征并减少非稳定噪声。
回声
回声是由于说话者在被减弱和延迟后发出麦克风的声音引起的。当发送音频时,我们必须从语音流的中间删除不必要的回声。不仔细考虑多人呼叫的问题。非线性回声消除了使用Virgin过滤的方法。
结合人工智能技术,我们可以基于深度学习方法使用语音分离方法,并通过仔细的设计神经网络算法直接消除线性回声和非线性回声。
虚拟背景
虚拟背景基于细分技术,该技术通过将图片中的潜在客户划分并替换背景图片来划分。主要的应用程序场景包括实时,真实的时间通信和交互式娱乐。涉及的技术主要包括图像分割和视频分割。典型示例如图1所示。
(图1上图中的黑色背景被下面的紫色背景所取代)
视频超级分辨率
视频超级分辨率是清除高糊状视频。在有限的带宽和低代码速率的情况下,传输较低的质量视频,然后通过图像超级分辨率技术将其恢复为高定义视频。该技术在WebRTCIT中的WebRTC中具有重要意义。典型图像如图2所示。在有限的带宽情况下,传输低分辨率的视频代码流仍然可以获得高分辨率视频。
(图2原始低分辨率图像与处理后的高分辨率图像)
WebRTC是开源技术堆栈。如果您想在实际情况下进行极端,则需要优化很多。Rongyun结合了自己的业务特征,以修改WebRTC音频处理和视频压缩压缩零件,以实现基于深度学习的音频噪声抑制和视频压缩。
音频处理
除了WebRTC的原始AEC3,ANS和AGC外,Rongyun还为纯语音场景(例如会议和教学)添加了AI语音减少模块,并优化了AEC3算法,从而极大地提高了音乐场景中的声音质量。
AI语音降低噪声:大多数行业都使用掩盖时间域和频域的掩码方法,结合了传统算法和深神经网络。通过信号 - 命名比率的深神经网络估计,不同频段的增益可以可以计算。将其转换为时域后,可以再次计算时间域的增益。最后,它可以应用于时域以最大程度地发出噪音并保持声音。
由于深度学习的声音降低模型使用了太多的RNN(环状神经网络),因此声音之后的一段时间,该模型仍然相信有人类的声音。不明权。Rongyun在基础上添加了一个预测模块现有模型。根据包装的程度和SNR下降的程度,预测声音的结尾可以消除声音结束时可以检测到的残余噪声。
(图3优化噪音尾巴)
(图4优化无噪声拖车)
视频处理
在WEBRTC源代码中,视频编码部分主要使用开源OpenH264,VP8和VP9并重新包装到统一接口中。Rongyun通过修改OpenH264源代码来完成背景建模和兴趣区域编码。
背景建模:为了完成真实的视频编码,对于GPU而言,必须进行背景建模的处理。研究和开发后,OpenCV中的背景建模算法支持GPU加速。在实际操作中,我们转换了原始的YUV由摄像机和其他收集设备获得的图像中获得RGB图像,然后将RGB图像发送到GPU。OpenH264的长期参考框架列表以提高压缩效率。流程图如图5所示。
(图5背景建模流程图)
有兴趣的区域提取:感兴趣的区域编码部分是使用Yolov4tiny模型实现的,以执行目标检测和融合与背景建模提取的前景。某些代码显示下面有6个。图像设置为416*416。
(图6将网络加载到GPU的某些程序)
视频编码对WEBRTC的实验效果:为了验证效果,我们使用WEBRTC中的VideoLoop测试程序来测试修改后的OpenH264.Figure 7显示了现场收集的视频。1920*1080分辨率的效果用于背景建模的效果。图8是输出的结果。为了确保实时,WEBRTC由于各种原因而放弃在设定时间内实际编码的框架。图8显示,我们使用的算法不会浪费大量的编码时间,并且不会导致编码器来编码时间产生废弃的框架。
(图7当前框架和背景框架)
(图8编码器的实际效果)
总而言之,在音频中使用基于人工智能的降噪处理可以显着改善现有的语音呼叫体验,但是模型预测不够准确,计算量相对较大。随着模型的持续改进和连续的改进扩展数据集,AI语音降噪技术肯定会给我们带来更好的呼叫体验。根据视频,背景建模技术用于将背景框架添加到长期参考框架列表中,从而有效地改进了编码监视方案的效率,并使用目标检测和背景建模和有效的代码 - 分配方案来改善对视频感兴趣的视频。该区域的编码质量有效地改善了人们在弱网络环境中的观看体验。
技术变化一直在不断进入,我们进入了综合情报时代。兵工智能技术被深深地应用于各种情况。在音频和视频行业领域,高级技术和WEBRTC也是前景。服务优化是无限的。Rongyun将继续跟上科学和技术的趋势,继续积极地探索创新技术,并将其融入开发人员方便使用和长期授权开发人员的潜在能力中。