网易云信实时音频框架背后：算法优化带来产品体验全面提升

时间：2023-03-18 19:51:33 科技观察

2018年10月19日，一年一度的LiveVideoStackCon音视频技术大会在北京召开。本次大会以“科技开启新‘视’世界”为主题，汇聚资深音视频技术工程师，共同探讨音视频图像等技术的实践与思考。网易云信高级音频算法工程师李蓓在教育环节的主题演讲中分享了网易云信NRTC在软件层实时音频解决方案中对WebRTC原有算法的优化，以及在音乐内容特殊场景下的新解决方案。思考。网易云信高级音频算法工程师李贝做了主题演讲。火爆的市场衍生出更丰富的音视频应用场景。互联网产品对实时音视频技术的需求在千亿、百亿规模的各个市场呈爆发式增长，并逐渐成为基础设施类型。重要技术。李贝认为，未来随着更多可玩性的发展，音视频的应用还有很大的增长空间。此外，实时音视频技术助推了互联网产品的创新演进，赋予产品更丰富、更高效的场景表现力，也推动了实时音视频技术本身的演进。实时音视频技术需要与行业和应用场景紧密结合。当前和未来，客户除了对稳定性、效率等技术性能的核心诉求外，对个性化的需求也越来越大。据李贝介绍，网易云信基于自主研发的全功能工业级音视频技术框架NRTC，进行了多项场景化、针对性的技术优化，形成了对实时音频应用的观察和思考。网易云信的NRTC优化算法弥补了WebRTC原有算法的局限性。李贝强调，虽然目前面向通用行业的软件层实时音频框架已经日趋成熟，但仍有两个明显的痛点需要解决：一是变化复杂。网络状况下，信号弱或网络拥塞导致的延迟或丢包；其次，随着终端类型的增加和应用场景的跨度，不同类型的终端设备和使用环境的巨大差异对整体解决方案的适配度提出了更高的要求。一般行业都是以交流为目的。在实时音频的众多要求中，首先看重的是架构的流畅性，低延迟，足够高的音量，无明显回声、杂音和杂音。除了满足以上要求，人们还会关注音质、双讲体验等性能。那么如何设计一个解决上述痛点并稳定运行的音频框架呢？以WEBRTC的音频框架图为例：（图：webrtc的线程模型和数据驱动方式，不同颜色代表不同线程，蓝色箭头代表数据驱动方式）但是每个模块都有很多方面来保证实时的稳定性audio下需要注意的问题，比如回声采集的非线性，音量大小，延迟时系统内部延迟的大小和变化等等，都是音频采集和回放中常见的问题该平台。由于音频预处理的挑战和WebRTC原生算法的一些不足，技术人员需要进一步优化以提升整个框架的技术性能，保证终端用户的产品体验。网易云信全功能工业级音视频技术框架NRTC针对这些不足做了一系列的优化。例如，回声采集的非线性是目前在线采集面临的普遍问题，其稳定性将直接影响回声消除和处理效果。WebRTC在这方面的不足迫使一些厂商以回声消除为代价来降低音量。针对原有WebRTCDelayEstimation的稳定性，网易云信的NRTC对远端和近端之间的延迟进行了对齐和优化，提升了整体框架在回声、噪声和降噪方面的性能。再比如，用户在交流过程中产生的呼吸音的采集和处理，也是音频框架面临的共同难点之一。由于机载语音能量低，回声大，且能量集中在中高频，普通算法无法满足处理要求。对比原生WebRTCAEC和NRTC在iPhone6P发音下的表现，NRTC框架算法优化的效果明显更好。iphone6pair-voice发音下源声webrtcaecVSNRTC的表现网易云信关于音乐场景下实时音频方案如何选择的新思考除了一般通讯场景下的音视频应用，音乐内容及其应用场景有重要的意义对技术的影响更具体的要求。在李贝看来，与普通场景相比，音乐内容场景对声音的要求有很大不同。例如，人耳对音乐的感知更为敏感，人耳可以察觉到音质的轻微下降，这就对声音处理提出了更高的要求。与以通信为目的的一般场景相比，音乐内容对实时音频技术的需求有着不同的优先级：稳定性和音质成为第一需求，而降噪和低延迟降为次要需求。由于上述音乐内容场景的特殊性，一般的实时音频框架在音乐内容场景中都有一定的局限性。例如低采样率、非全频段处理、近端声音和对讲的粗处理、低码率设置、简单的AudioQoS不足以支持一般场景下的音乐内容等特殊场景。再比如，在使用更高码率的情况下，如果仍然使用通用的策略，会造成严重的拥塞或者丢包。然后，面对这些新的需求、痛点和局限，如何在资源有限的情况下做出选择，李贝分享了网易云信的四大新思路：?AGC（自动增益控制）音乐内容的新需求——因为在音乐场景中对情感输入有特殊的需求，比如情绪舒缓时音量较低，情绪剧烈时音量较高。因此，如果在AGC算法中对能量进行类似的处理，将会对音乐内容的传输造成很大的危害；?HowlingControl在音乐场景中的危害——在处理音乐demo时，如果对某个频段的回声进行过多的消除处理，会对人的听觉体验产生很大的影响；?音乐内容下的NS（NoiseSuppression）痛点——一些音乐场景有很多乐器，NS处理会对某些声音造成一定的损害。有些工程师为了追求原声的最佳体验，干脆关闭NS模块，宁愿忍受噪音也不愿失去音乐效果。李贝介绍，网易云信深知该技术问题给产品和用户带来的困扰，并在实践中不断优化NS算法，力求为客户提供更好的技术服务；TSM（TimeScaleModification）在音乐场景中的影响——如果将一般场景中使用的TSM算法直接复制到音乐内容场景中，会导致音乐内容在传输过程中节奏发生变化，因此有必要做一个特别适应音乐场景的TSM算法。“在垂直领域日益丰富的今天，针对不同场景调整策略是每个底层技术提供商应该思考的问题，也是网易云信一直努力的方向。”李北总结道。把技术匹配到客户，把服务做的更细，既是整个行业生态追求的结果，也是推动行业生态进步的动力。

上一篇：软件架构：程序员需要知道的重要软件架构模式

下一篇：机器学习如何打击金融网络犯罪人工智能对于安全洞察力至关重要

网易云信实时音频框架背后：算法优化带来产品体验全面提升相关文章