摘要:语音分离是指将目标语音与背景噪声分离的任务。传统上,语音分离一直被视为信号处理问题。最近出现了一种新方法,将语音分离视为监督学习问题,从训练数据中学习语音、说话人和背景噪声的判别模式。近十年来,提出了许多有监督的分离算法,特别是最近提出的基于深度学习的有监督语音分离取得了很大进展,在分离任务中的性能有了很大的提高。本文概述了近年来基于深度学习的监督语音分离研究。我们首先介绍语音分离的背景和监督分离的形成。然后我们讨论监督分离的三个主要组成部分:学习机、训练目标和声学特征。这篇有监督语音分离的概述主要关注分离算法,我们将回顾单声道方法,包括语音增强(语音-非语音分离)、说话人分离(多方通话分离)、语音混响减少(语音去混响)和麦克风阵列技术(多麦克风技术)。本文还讨论了泛化的重要问题。本文从历史的角度描述了监督语音分离的技术发展。此外,我们还讨论了很多概念性的东西,比如目标源的构成。1.引入语音分离的目标是将目标语音从背景噪声中分离出来。在信号处理中,语音分离是一类非常基础的任务,具有广泛的应用,包括听力假体、移动通信、强大的自动语音和说话人识别。人类的听觉系统可以很容易地将一个人的声音与另一个人的声音区分开来。即使在像鸡尾酒会这样的声学环境中,我们似乎也能在其他人的声音和环境噪音中听到一个人在说什么。因此,语音分离问题通常被称为“鸡尾酒会问题”,这是Cherry在他1953年的著名论文[22]中创造的一个术语。人类交流最重要的形式是语音,将语音与背景噪音分开对我们来说至关重要。有趣的演讲或有针对性的谈话经常被来自其他来源的不需要的噪音和来自表面反射的混响打断。虽然人类可以很容易地分离语音,但事实证明,构建一个可以匹配人类听觉系统的自动化系统在这项基本任务中具有挑战性。在Cherry1953年出版的书[23]中,他观察到:“目前还没有机器能够解决‘鸡尾酒会问题’。“不幸的是,在我们的领域,他的结论在60多年里仍然是正确的,尽管本文提到的最近的研究进展已经开始解决这个问题。语音分离是如此重要以至于它已经在信号处理中被研究了几十年。取决于根据传感器或麦克风的数量,分离方法可分为单声道方法(单麦克风)和阵列方法(多麦克风)。两种传统的单声道分离方法是语音增强[95]和计算听觉场景分析(CASA)[140]].语音增强方法分析语音和噪声的所有数据,然后通过带噪语音的噪声估计来估计清晰语音[32][95],最简单和应用最广泛的增强方法是谱减法[10],其中估计噪声的功率谱是从带噪声的语音中减去的。为了估计背景噪声,语音增强技术通常假设that背景噪声是稳定的,即它的频谱特性不随时间变化,或者至少比语音更稳定。CASA建立在听觉场景分析的感知理论[12]的基础上,利用音高和起始等聚类约束。例如,串联算法通过交换音调估计和基于音调??的聚类[65]来执行语音分离。两个或多个麦克风的阵列使用不同的语音分离方法。波束成形或空间滤波器通过适当的阵列结构增强从特定方向到达的信号,从而减少来自其他方向的干扰[134][11][7][74]。最简单的波束形成是一种延迟相加技术,将来自多个麦克风的信号在目标方向上以相同的相位相加,并根据相位差切割来自其他方向的信号。降噪量取决于阵列的间距、大小和配置,并且通常随着麦克风数量和阵列长度的增加而增加。显然,当目标源和干扰源位于同一位置或非常接近时,空间滤波器将无法应用。此外,在有回声的场景中,波束形成的效果会大大降低,声源方向的确定变得模糊。最近提出的一种方法将语音分离视为监督学习问题。受监督语音分离的初始公式受到CASA[98][140][138]中时频(T-F)掩蔽概念的启发。CASA的主要目标是理想二进制掩模(IBM)[63],它表示目标信号是否控制混合信号时频表示中的T-F单元。听力研究表明,理想的二元掩码可以显着提高正常听力受试者(NH)和听力受损受试者(HI)在嘈杂环境中的语音理解能力[13][1][91][141]。以IBM为计算目标,语音分离成为二元分类问题,是监督学习的一种基本形式。在这种情况下,IBM被用作训练中的目标信号或目标函数。在测试中,学习机旨在估计IBM,这是监督语音分离的最佳训练目标(见第III节)。由于语音分离已经变成一个分类问题,数据驱动的方法在语音处理中得到了广泛的研究。在过去的十年中,有监督的语音分离通过利用大量训练数据和增加计算资源,极大地提高了最先进的性能[17]。监督分离极大地受益于深度学习的发展,这也是本文的主题。监督式语音分离算法大致可以分为以下几个部分:学习机、训练目标和声学特征。在本文中,我们首先回顾这三个部分。然后介绍了代表性算法,包括单声道方法和基于数组的算法。泛化作为监督语音分离的一个特定主题,也将在本文中进行讨论。为了避免混淆,我们需要澄清一下本文中使用的几个相关术语。语音分离或语音隔离都是指将目标语音与背景干扰(可能包括非语音噪声、干扰语音或两者,以及房间混响)分离的任务。此外,“鸡尾酒会问题”还指语音分离。语音增强或降噪是指语音和非语音噪声的分离。对于多个说话者的语音分离问题,我们使用术语“说话者分离”。论文结构如下:我们首先回顾了监督语音分离的三个主要方面,即学习机、训练目标和特征(分别在第2、3和4章中介绍)。第5章介绍单通道分离算法,第6章介绍基于阵列的算法。第七章为结语。图1.在混合了-5dBSNR工厂噪声的TIMIT音频数据上使用不同训练目标的图示。图2.使用不同训练目标的训练结果比较。(一)STOI。(b)公共服务质量问题。将信噪比分别为-5dB、0dB和5dB的工厂噪声与清晰语音混合。此图的结果和数据可从位于http://web.cse.ohio-state.edu/pnl/DNN_toolbox/的Matlab工具箱中获得。图3.使用DNN进行特征学习的示意图,使用线性SVM估计学习特征的IBM值[147]。图4.用于语音分离的两阶段DNN的图示[52]。图5.语音增强中基于DNN的频谱映射方法的图示[161]。图6.用于语音增强的DNN架构,自动编码器配置为无监督调试[182]。AE作为纯度检测器堆叠在DNN之上,估计来自DNN的干净语音。图7.基于LSTM的语音分离系统的结构表示[16]。图8.前馈DNN和基于LSTM的RNN的STOI改进。(a)SNR为-5dB的训练有素的说话人的结果。(b)SNR为-5dB的未经训练的说话者的结果。图9.基于频谱映射的用于减少语音混响的DNN图示[45]。图10.用于减少语音混响的混响时间响应DNN架构的图示(重新绘制自[156])。图11.基于DNN的双扬声器分离方法示意图。图12.听力和听力受损受试者听目标句子与干扰句子混合并将目标句子与目标句子分开时的平均清晰度分数和标准差[151]。该图显示了四种不同目标干扰比的正确结果百分比。图14.双耳分离算法结构示意图[171]。图15.用于单声道模板估计的MVDR波束形成器[34]。
