指南:截至2019年,全球有200多个国家和地区,人们使用的语言数量高达7000种,其中有数以千计的濒危语言或不成文语言(unwrittenlanguage)。语言障碍往往是不同地区之间政治、经济、文化交流的重要障碍。幸运的是,随着近年来机器翻译技术的快速发展,特别是自2017年Transformer模型被提出以来,基于神经网络的机器翻译方法逐渐受到更多的关注,并被应用到各大商业机器翻译系统中,大大降低了语言障碍带来的不便,促进了人与人之间的交流。但与此同时,随着互联网的发展,人们日常所能获取的信息不再局限于文字,音频、视频等形式也成为了信息传播的主要手段。因此,如何将语音信息翻译成不同语言的文本,也是一个需要攻克的难题。语音翻译概述语音翻译(SpeechTranslation,ST)是将一种语言的语音翻译成另一种语言的文本。它有许多重要和有趣的应用,例如:视频自动字幕会议同声传译的智能翻译硬件如今,实用的商业语音翻译系统都是由自动语音识别系统(AutomaticSpeechRecognition,ASR)和机器翻译系统(MachineTranslation,MT),随着语音识别和机器翻译技术的发展,语音翻译的效果在一定程度上得到了提高。然而,这样的级联系统往往存在错误累积的问题,即语音识别中的错误会直接导致机器翻译结果的错误。为了解决这一问题,近年来随着序列到序列建模(sequene-to-sequencemodeling)方法在机器翻译和语音识别中的应用和发展[1-4],研究者也开始探索能够将音频直接转换为文本的端到端语音翻译技术。语音翻译建模方法级联语音翻译(Cascade)级联语音翻译系统使用语音识别模块将音频识别为文本,然后使用机器翻译模块将文本翻译成不同的语言。这种方法的优势在于可以利用大规模的语音识别数据和机器翻译数据,将两个模块优化到极致。但语音识别文本有以下特点或常见错误:无大小写和标点信息,存在口语现象,如语气词、重复等识别错误,需要经过一定的后处理在输入翻译模块之前。例如:流畅的口语:识别并删除识别文本中包含的重复、冗余等口语现象;文本反规范化(ITN):将识别的文本转换为书面文本(如数字转换等)改写/纠错:根据上下文语义,改写或改正文本以提高翻译的准确性,添加标点符号,以及标准化大写。可以看出,级联系统支持我们插入各种优化处理模块,每个模块都可以单独进行优化和替换。然而,为纠正/纠正而引入的各种模块可能会引入更多的错误,因此级联语音翻译系统面临的最大挑战是错误传播和高计算复杂度。端到端语音翻译(End-to-end)端到端语音翻译是一种将语音直接翻译成文本的统一模型。这得益于“encoder-decoder”框架的发展,尤其是其在机器翻译[1]和语音识别[2-4]中的应用。与级联模型相比,端到端模型的优势在于可以缓解错误传播问题,简化模型部署过程。目前比较常用的端到端语音翻译模型仍然是基于Transformer的,如下图所示:其“encoder-decoder”主干结构是标准的Transformer,与基于Transformer的神经网络唯一不同的是机器翻译是输入。词向量成为音频的表示。而我们知道,音频文件读入计算机程序后,其表示是一系列离散的采样点(即声音在介质中振动的幅度),假设音频采样率为16000(即,每秒16000个样本)点),那么即使只是几秒钟的音频,读入程序的序列也会很长,所以在正式输入Transformer之前,需要进行音频特征提取。如下图所示,最常用的端到端语音翻译模型中有两种音频特征提取方法:基于声学特征:首先提取传统的声学特征,如梅尔频率倒谱系数(MFCC)和梅尔滤波器组特征(log-melfilterbankcoefficient,FBank)等。得到的声学特征是一个“音频帧数×声学特征数”的矩阵,其中音频帧可以看成是一个时间序列维度,但还是比文本中的句子数略长,所以在FBank/MFCC之后往往会连接几层卷积神经网络进一步对声学特征进行特征提取和降维。基于无监督预训练模型:无监督语音预训练模型是近两年比较热门的研究方向。它不需要提取声学特征,而是利用深度神经网络模型直接基于大规模音频数据训练语音的特征表示。目前,对多个下游语音任务的实验表明,预训练的语音表示比传统的声学特征表现更好[5]。上图(2)是比较经典的wav2vec2.0[6]。音频信号会通过一个7层的卷积网络进行提取和降维,然后经过几层TransformerBlock得到一个带有上下文信息的音频特征表示。端到端语音翻译的潜力和挑战端到端建模方法比传统的级联语音翻译更具潜力,我们可以通过以下推导来证明它(X代表音频输入,S和T代表语音分别为识别结果和翻译结果)[7]:方程(1):它是端到端的语音翻译模型,它直接从音频X生成翻译T;方程(2):引入一个新的变量S,它是(1)的条件概率展开形式;等式(3):我们使用文本翻译翻译模型来近似P(T|S,X),显然这一步存在信息损失,因为我们忽略了原始音频输入,所以翻译模型无法真正捕捉到说话者的语气、情感、态度等,然后可能会产生歧义;公式(4):是级联语音翻译模型,直接取语音识别模型输出的Top1结果,传递给机器翻译模型。这就又回到了前面提到的级联模型的缺点:一是语音识别的输出与机器翻译不匹配(比如口语化现象,没有标点符号,甚至领域不匹配等),二是问题错误传播。特别是在商用语音翻译系统中,往往会包含口语平滑、标点符号恢复等模块,可能会累积更多机器学习模型的预测误差,增加模型的复杂度。因此,端到端建模方法无论是在模型复杂度还是效果方面都具有更强的潜力。我们其实可以通过增强机器翻译模型的鲁棒性,使用ASR(比如lattice)输出的TopK结果,或者在标点模块/翻译模块中结合更多的音频信息,来提升级联模型的效果,但是这篇文章是关于我这里就不过多讨论了,因为对这些方法进行公平的比较需要大规模和匹配的训练数据来支持,而目前端到端语音翻译的数据规模还不足以做到这一点。如果端到端的语音翻译有很大的潜力,为什么商业语音翻译系统还在级联?这与端到端方法最大的缺点有关:数据资源稀缺。以学术界的开源数据为例,WMT数据是机器翻译研究中常用的数据。WMT21En-De包含超过4000万个平行语料库,加上OpenSubtitles(视频字幕)、CCMatrix(从CommonCrawl中清理)[8]等等,光是En-De语言就可以积累上亿个平行语料库。针对语音识别任务,一些研究人员还在2021年发布了GigaSpeech数据集,其中包含10,000小时的标记英语音频数据。对于端到端的语音翻译任务,目前比较常用的数据集是MuST-C[9],其中恩德语包含400小时的音频,对应25万句的转录和翻译,数据规模远不如机器翻译。和语音识别任务。主要原因是语音翻译数据集的构建过程复杂且成本高。例如,我们需要找到一个数据源,可以同时满足:具有公开或授权的音频,相应的转录和翻译。然后需要对音频进行分段、转录和翻译,最后对齐和过滤。经过这一系列的操作,最终得到的有效数据的规模不会非常可观。就业界而言,标注几千、几万小时的语音翻译数据也需要耗费大量的人力、财力和时间。为此,研究人员提出了很多提高端到端语音翻译效果的方法,例如更有效地利用大规模语音识别和机器翻译数据、引入预训练模型、重新设计编码器和解码器等。我们也积累了这方面的系列作品。一些探索和尝试我们尝试使用语音识别和机器翻译数据来增强端到端语音翻译,主要围绕三个方面:更高效的编码器和解码器、训练技术和策略以及数据增强。LUT(AAAI2021):Listen,Understand,andTranslate论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/17509延伸阅读:https://mp.weixin.qq.com/s/D0BnXHh1w0AuCBBhv0nFBQ文章认为,现有的基于Transformer的端到端语音翻译模型有两个缺点:难以仅用一个编码器同时做音频信号分析和语义理解;它不能使用ASR转录的信息。因此,文章介绍了两种编码器:声学编码器和语义编码器。其中,声学编码器负责解析音频信号并将其与转录的文本表示相匹配。在这里,可以使用ASR转录的监控信号。语义编码器接收声学编码器的输出并执行语义理解。COSTT(AAAI2021):Simultaneousrecognitionofsoundandtranslation论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/17508延伸阅读:https://mp.weixin.qq.com/s/Af6p1jVlkePrIZmUrjIaNw虽然端到端语音翻译直接接收音频作为输入,但语音到文本的跨模态翻译会更加困难。另一方面,考虑到翻译人员在进行交替传译或同声传译时,通常会在源语言中记录一些关键词以帮助翻译,基于此,文章提出了在sequence-to-sequence解码过程中的“连续预测”模型。”,即让端到端语音翻译模型的解码器先预测原始音频的转录结果,然后再继续预测翻译结果。这样,解码器端的self-attention机制可以使得在生成翻译时“参考”音频的转录内容成为可能。同时,解码器实际上是一个双语语言模型,可以在文本翻译中使用平行语料库。预训练也有效缓解了语音翻译训练数据稀缺问题.Chimera(ACL2021):Universalunderstandingofspeechandtext论文地址:https://aclanthology.org/2021.findings-acl.195/深度阅读:https://mp.weixin.qq.com/s/G_sqv9kAebm-PvIcu1hGHQ在日常生活中,我们是否有这样的体会,在听一些节奏感强、歌词强的歌曲时,工作效率会严重下降。认知神经科学对此有相关解释,即是,声音和text信号在传输到大脑后会共享部分处理路径。文章中提出的Chimera模型模拟了这个想法。语音/文本输入后,首先会通过自身的声学编码器/文本编码器进行编码,然后通过几个公共的“记忆元素”提取出真正有用的语义。信息,而模型不区分这组语义信息最初是来自音频还是文本,因此模型可以获得同时对音频和文本进行建模的共享语义空间。此外,从文本输入到翻译输出的环节可以用更多额外的文本翻译数据进行训练,进一步缓解语音翻译语料库不足的问题。XSTNet(InterSpeech2021):Progressivemulti-tasklearningframework论文地址:https://www.isca-speech.org/archive/interspeech_2021/ye21_interspeech.html文章是充分利用了语音识别的三个数据,文本translation和speechtranslation,并设计了一个可以同时完成这三类任务的模型。该模型的编码器支持同时输入文本和音频,它们共享整个编码器的参数。解码生成时,以生成句子的语言作为句子的开头(如果与音频语言一致,则完成识别任务;如果不一致,则为翻译任务)。此外,文章还提出了一种渐进式学习方法(progressivetraining),即用文本翻译数据对整个网络进行预训练,然后逐渐加入语音识别和语音翻译任务一起调优。实验表明,这样的模型训练方法会比只对语音翻译任务进行微调效果更好。IWSLT2021离线语音翻译评估系统论文地址:https://aclanthology.org/2021.iwslt-1.6文章试图探索端到端系统能力的上限,引入更多的语音识别数据和机器翻译数据,并结合多Task学习方法、伪标签技术、模型集成等方法,将端到端语音翻译的性能提升了近8BLEU,并逐步缩小与级联系统的差距。NeurST(ACL2021Demo):End-to-EndSpeechTranslationToolkitandExperimentalBenchmark论文地址:https://aclanthology.org/2021.acl-demo.7/项目地址:https://github.com/bytedance/neurst文章介绍了一套端到端的语音翻译工具包。基于结构化设计,可以轻松插入和修改各种数据预处理模块、编码器和解码器结构。它还提供标准化的libri-trans、MuST-C等语音翻译数据集的数据预处理、训练和推理脚本,以及实验基准结果。STEMM(ACL2022):Cross-modalmixedtrainingtoalleviatethemodalgap论文地址:https://aclanthology.org/2022.acl-long.486/最近的一些研究工作试图引入更多的文本翻译数据来缓解端到端语音翻译数据稀缺的问题,但语音和文本之间存在不一致。这篇文章称之为模态差距。此时,模型很难从文本翻译数据中学习语音翻译。有用的知识。为了更有效地利用文本翻译数据,文章提出在训练时随机将部分语音表示替换为相应的文本表示,得到一系列混合的语音和文本表示,从而使模型能够学习共享的语音和文本模态之间的语义空间。同时,该模型采用多任务学习的方法,使原始音频生成的翻译结果与混合表示生成的结果更加接近,从而提高最终解码时的语音翻译质量。ConST(NAACL2022):Contrastivelearningtosolvethemodalgap论文地址:https://arxiv.org/abs/2205.02444文章在XSTNet的基础上讨论了modalgap的问题。文章认为,在多任务学习的框架下,同一个句子的语音表示和文本表示在语义空间上应该是相似的。为此,文章提出使用对比学习损失项来缩小同一句子的语音和文本表示,然后充分利用额外的文本翻译数据来提高语音翻译的性能。MOSST(ACL2022):End-to-EndSimultaneousInterpretationBasedonWordSegmentation论文地址:https://aclanthology.org/2022.acl-long.50/Streamingspeechtranslation需要将实时语音输入翻译成文本。传统的端到端语音翻译系统一般以固定的输入时间作为判断系统读写的依据。这种方法面临两大问题:一方面,对于长语音信息,不能保证每次读取语音信息的完整性;另一方面,对于短语音信息,不能提前结束读取,导致翻译延迟增加.为了更好地判断流式语音翻译的读写时序,本文引入了单调切分模块,可以检测音频流的边界,实现动态读写。实验发现,新模块在延迟和质量上全面超越了之前的流式语音翻译模型,同时也使得模型在非流式场景下表现良好。结论我们认为,端到端的语音翻译不仅没有级联系统那么复杂,而且在效果方面也更有潜力。基于我们之前的探索,我们尝试结合数据增强、多任务学习、预训练等,构建了汉英和英汉端到端的语音翻译系统,在翻译方面有很好的效果。日常对话翻译。同时我们使用LightSeq[10]提升模型推理速度,服务响应时间比级联系统快70%以上,在“火山翻译小程序-有声翻译”中可以体验到。
