当前位置: 首页 > 科技观察

Apple机器学习期刊“Siri三部曲”之一:通过跨带宽和跨语言初始化改进神经网络声学模型

时间:2023-03-16 17:25:13 科技观察

近日,AppleSiri团队在Apple机器学习期刊上发表了三篇文章《DeepLearningforSiri』sVoice:On-deviceDeepMixtureDensityNetworksforHybridUnitSelectionSynthesis》,展示在详细介绍苹果语音助手Siri的最新进展和成果。这些论文中的第一篇讨论了一种使用声学模型数据的迁移学习技术,该技术可以显着提高Siri在新语言中的准确性。机器之心接下来会奉献第二篇和第三篇博文,敬请期待。用户希望Siri的语音识别无论语言、设备、声音环境或通信信道带宽如何都能保持稳定。与其他有监督的机器学习任务一样,高精度采集通常需要大量的标记数据。每当我们在Siri中部署一种新语言,或扩展Siri以支持不同的音频通道带宽时,我们都会面临拥有足够数据来训练声学模型的挑战。在本文中,我们讨论了使用声学模型数据的迁移学习技术,这些技术已经在使用中。我们表明,表征不仅可以跨语言传输,还可以跨音频通道带宽传输。作为案例研究,我们专注于以新的Siri语言识别8kHz蓝牙耳机上的窄带音频。我们的技术有助于显着提高Siri在新语言中的准确性。即使您只有有限的与训练领域相关的数据,任何数量的领域数据都是有价值的。Siri的绝大部分使用发生在宽带音频通道上,只有一小部分发生在窄带通道(例如8KHz蓝牙耳机)上。然而,从绝对意义上讲,大量Apple客户在窄带渠道上使用Siri。在发布新语言版本的Siri之前,我们可以收集的窄带蓝牙音频数量是有限的。尽管如此,我们的目标是在第一天就为我们的客户提供最好的体验。2014年年中,Siri推出了使用深度神经网络(DNN)的全新语音识别引擎。该引擎首先以美式英语引入Siri,截至2015年年中,我们已将该引擎扩展到13种语言。为了成功扩展,我们必须解决使用发布前可以收集的有限数量的转录数据构建高质量声学模型的问题。这适用于宽带音频情况,例如通过iPhone麦克风收集的音频,对于通过蓝牙耳机收集的窄带音频更是如此。解决少量窄带蓝牙音频问题的方法是相对带宽更受限,更容易采集的宽带音频。事实上,我们发现在有限数量的窄带蓝牙音频上训练的声学模型仍然优于在大量带宽限制的宽带音频上训练的模型,证明了域内数据在声学模型训练中的价值(图1)。这需要同时利用大量宽带音频和有限数量的窄带音频。在这项工作中,我们研究了迁移学习框架中的神经网络初始化[1]、[2]。表1:窄带蓝牙测试中的词错误率(WER)跨语言初始化许多研究人员认为[3][4][5]神经网络声学模型的隐藏层可以跨语言共享。这背后的基本原理是隐藏层学习到的特征转换对特定语言不是很具体,因此可以跨多种语言推广。图2.跨语言初始化我们将经过训练的现有语言窄带DNN模型的隐藏层迁移到新的目标语言,并使用目标语言数据重新训练网络,如图2所示。即使我们尝试使用不同的源DNN,使用所有可用的窄带训练数据的跨语言初始化训练通常显着优于基线(详见[6])。即使只有20小时的窄带数据,使用英语窄带模型开始跨语言训练也优于大多数语言的具有更多窄带数据的基线。而当我们思考源语言和目标语言之间的语言关系时,我们无法得出结论。Cross-bandwidthinitialization图3.交叉带宽初始化在最初的实验中,我们发现使用较少真实窄带蓝牙音频数据训练的模型优于使用更多带宽限制宽带数据训练的模型。但是,使用在语言中的带限数据上训练的模型作为初始化的起点仍然有用。我们在真实的窄带蓝牙音频数据上重新训练带限模型。通过这种方式,我们能够使用一种语言的宽带和窄带数据来训练窄带模型(见图3)。结合跨语言和跨带宽传输看到前两种传输学习技术的成功后,我们认为我们可以通过将两者结合起来更进一步。具体来说,在用一种新语言在带宽受限数据上训练DNN时,我们不需要从随机权重开始,而是可以在用已经支持的语言在带宽受限数据上训练的DNN模型中初始化隐藏层。图4.跨语言和跨带宽初始化的组合图5.跨语言和跨带宽初始化的单词错误率比较结论我们利用从其他语音识别任务中获得的知识来改进窄带蓝牙应用的DNN声学模型。这些知识通常是从DNN声学模型初始化中获得的,具体来说,使用在带宽受限的宽带数据或另一种语言上预训练的DNN的权重。对于我们实验中使用的所有语言,这些技术产生的单词错误率比仅在目标语言的蓝牙窄带数据上训练的模型低45%。我们的方法在训练时间和从可用的多样化数据中学习之间的权衡方面也很灵活,如论文[6]所述。除了本文讨论的蓝牙窄带模型案例研究外,这些方法在许多神经网络声学建模场景中都显示了它们的有效性,并帮助我们在Siri使用新语言和新音频通道时构建最佳模型。