谷歌最近发布了一个端到端的神经音频编解码器——SoundStream。最重要的是,谷歌表示这是世界上第一个支持语音、音乐和环境声音等不同声音类型的神经网络音频编解码器,所有这些都可以在智能手机的处理器上进行实时处理。音频编解码器是压缩音频文件以使其更小并在传输过程中尽可能节省时间的基本工具。因此,音频编解码器对于需要传输音频的服务(例如流媒体、在线语音和视频通话)至关重要。虽然音频编解码器可以压缩音频音量并加快音频传输过程,但压缩后的音频也会损失音频质量和细节,从而导致用户可以感知的差异。而这正是SoundStream可以弥补的地方。今年2月,谷歌发布了Lyra,一种用于低码率语音的神经音频编解码器,并于今年4月正式开源。SoundStream是Lyra的扩展版本。SoundStream不仅集成了Lyra的低比特率“语音”能力,还具备对更多声音类型的编码支持,包括清晰语音、嘈杂语音、带回声的语音、音乐和环境声。SoundStream围绕由编码器、解码器和量化器组成的神经网络系统构建。编码器将音频转换为编码信号,然后使用量化器对其进行压缩,并使用解码器将其转换回音频。因此,训练神经网络模型后,编码器和解码器可以在不同的客户端上工作,有助于在各种环境中传输音频而不损失质量。谷歌在他们的网站上发布了不同压缩音频样本与原始音频样本的比较。在对比测试中,SoundStream处理的3kbps音频优于Opus音频编解码器处理的12kbps音频,效果非常接近ECS编解码器处理的9kbps。谷歌自己的在线会议平台GoogleMeet和视频平台YouTube仍在使用Opus音频编解码器。随着SoundStream技术的不断改进,可能很快就会看到谷歌在自己的服务中使用自己的技术。谷歌表示,SoundStream是将机器学习技术应用于音频编解码器的重要一步,优于目前最先进的编解码器Opus和EVS。SoundStream将集成到Lyra中,并随Lyra的下一个版本发布。开发人员可以利用现有的LyraAPI和工具来提供更好的音频质量。本文转自OSCHINA文章标题:谷歌推出神经网络编解码器SoundStream,将集成到开源项目Lyra中本文地址:https://www.oschina.net/news/155954/google-soundstream-神经音频编解码器
