当前位置: 首页 > 科技观察

百度新论文提出Gram-CTC:单系统语音转录达到最高水平

时间:2023-03-18 02:11:55 科技观察

百度新论文提出Gram-CTC:单系统语音转录达到最高水平速度和准确率大幅提升。据研究人员称,这种新方法可以显着减少模型训练和推理时间。在同样的任务中,新模型的性能在单一模型的对比中超过了微软等公司。点击阅读原文下载本文。在百度的研究发表之前,微软曾于2016年10月宣布,他们的多系统方法在2000小时的口语数据库总机上测得的错误率为5.9%。后者被认为是对多系统方法潜力的探索,而百度的单系统方法更容易实现。CTC端到端学习使用一种算法来连接输入和输出,通常使用深度神经网络。这种方法提倡更少的人工特征设计和更少的中间单元。端到端的学习系统包括:基于CTC的语音识别、基于注意力机制的机器翻译,业界很多产品中都可以找到CTC的身影。在Fisher-Switchboard基准测试中,百度研究人员使用域内数据与之前公布的结果进行对比,表中仅列出单个模型的结果。DeepSpeech提出了一种端到端的神经架构,在多种语言的语音识别中具有CTC损失。百度展示的GramCTC可以扩展CTC损失函数,使其自动发现和预测字段而不是字符。使用Gram-CTC的模型可以在Fisher-Swbd基准测试中用单一模型优于任何其他以前的模型,这表明使用Gram-CTC的端到端学习优于基于上下文和相关音素并使用相同训练数据的系统也可以让训练速度达到两倍。对于同一段音频,考虑以下可能的转录,所有这些都可能用于语音转录。使用常识识别语音wreckanicebeachyousingcalmincenseCTC一次只能预测一个字符,假设输入对象彼此独立。为了使两个转录相似,CTC必须选择两个字符来填空,如下图所示。仅使用选项2中的候选人来填补空白,我们实现了第一个目标,即“识别语音……”;使用选项1中的候选人,我们得到“破坏一个漂亮的海滩......”。此外,从选项1和2中选择我们会得到很多无意义的陈述。字段是字符和词之间的单位,如“ing”、“euax”、“sch”等(包括但不限于词缀),虽然同一个字段可能因词或语境不同而有不同的发音,但是字段通常在英语中往往具有相同的发音。在我们的案例中,我们也可以使用字段来进行预测:如上图所示,这种方式可以大大减少无意义的预测组合。此外,预测词缀具有以下优势:更易于建模,因为字段比单个字母更快相对发音更进一步。由于与字母相比,字段反映的声音范围更广,因此这种方法可以大大减少算法预测所需的步骤数。我们的模型将时间步长减半,使训练和推理更快。在相同的硬件环境下,训练2000小时数据集的时间从9小时缩短到5小时。该模型可以学习识别相同发音的常见拼写。在上面的示例中,“alm”和“omm”的发音非常接近。在CTC中,这种识别是困难的;但在Gram-CTC中要容易得多。论文:Gram-CTC:AutomaticUnitSelectionandTargetDecompositionforSequenceLabeling(Gram-CTC:AutomaticUnitSelectionandTargetDecompositionforSequenceLabeling)现有的大多数序列标记模型都依赖于单个目标固定分解序列到基本单元序列。而这些方法都存在两个主要缺点:1)基本单元的集合是固定的,如语音识别中的词、字符、音素集合。2)目标序列的分解是固定的。在对序列进行建模时,这些缺点通常会导致性能不佳。在本文中,我们扩展了流行的CTC损失准则以减轻这些限制,并提出了一种称为Gram-CTC的新型损失函数。Gram-CTC在保留CTC优势的同时,可以自动学习到最好的基本单位集合(克),也可以自动学习到最合适的分解目标序列的方式。与CTC不同,Gram-CTC使模型能够在每个时间步输出字符的可变值,使模型能够捕获更长期的依赖关系并提高计算效率。我们证明了所提出的Gram-CTC提高了CTC在具有多个数据规模的大词汇量语音识别任务上的性能和效率。我们使用Gram-CTC在标准语音基准上取得了超过当前最先进水平的结果。