过去十年间,学术和商业机器翻译系统(MT)的质量有了很大的提升。这些改进主要归功于机器学习的进步和大规模网络挖掘数据集的可用性。同时,深度学习(DL)和端到端模型的出现、网络挖掘的大型并行单语数据集、回译和自训练等数据增强方法以及大规模多语言建模带来了支持能力100多种语言。高质量的语言机器翻译系统。然而,尽管在低资源机器翻译方面取得了巨大进步,但广泛可用的通用机器翻译系统所针对的语言却仅限于100种左右,这显然只是7,000多种语言中的一小部分当今世界。除了语言数量有限,目前机器翻译系统支持的语言分布也大大向欧洲语言倾斜。我们可以看到,尽管人口众多,但非洲、南亚和东南亚地区的语言以及美洲原住民语言的服务较少。例如,谷歌翻译支持弗里斯兰语、马耳他语、冰岛语和科西嘉语,所有这些语言的母语人数都不到100万。相比之下,谷歌翻译未提供服务的比哈尔方言人口约为5100万,奥罗莫语约为2400万,盖丘亚语约为900万,提格里尼亚语约为900万(2022年)。这些语言被称为“长尾”语言,缺乏数据需要应用一些机器学习技术,可以在有足够训练数据的情况下泛化超越语言。为这些长尾语言构建机器翻译系统在很大程度上受到缺乏可用的数字化数据集和语言识别(LangID)模型等NLP工具的限制。这些对于高资源语言来说无处不在。在最近的一篇谷歌论文《Building Machine Translation Systems for the Next Thousand Languages》中,两名研究人员展示了他们为构建一个支持1,000多种语言的实用机器翻译系统所做的努力的结果。论文地址:https://arxiv.org/pdf/2205.03983.pdf具体来说,研究人员从以下三个研究领域描述了他们的成果。首先,为1500多种语言创建干净的网络挖掘数据集,并使用语言识别和数据驱动过滤技术的半监督预训练。其次,通过使用100多种高资源语言的监督并行数据和额外1000多种语言翻译模型的单语言数据集训练的大规模多语言模型,为服务不足的语言创建有效的机器。第三,研究这些语言评估指标的局限性,并对机器翻译模型的输出进行定性分析,重点关注此类模型的几种常见错误模式。研究人员希望这项工作能够为致力于为目前未被充分研究的语言构建机器翻译系统的从业者提供有用的见解。此外,研究人员还希望这项工作能够引导人们关注能够弥补数据稀疏环境下大规模多语言模型弱点的研究方向。在5月12日的I/O大会上,谷歌宣布其翻译系统新增了24种语言,其中包括部分美洲原住民语言,如前述的比哈尔方言、奥罗莫语、盖丘亚语和提格里尼亚语。论文概况本文主要分为四章,这里仅对各章内容做简要介绍。创建一个包含1000种语言的网络文本数据集本章详细介绍了研究人员为1500多种语言爬取单语言文本数据集所采用的方法。这些方法侧重于恢复高精度数据(即高比例的干净的语内文本),因此很大一部分是各种过滤方法。总的来说,研究人员采用的方法包括:从LangID模型中剔除训练数据质量和LangID性能较差的语言,训练1629种语言的CLD3LangID模型和半监督LangID(SSLID)模型;CLD3模型中的错误率被聚类;第一轮网络爬取是使用CLD3模型进行的;使用文档一致性过滤句子;使用百分比阈值词表过滤所有语料库;所有语料库都使用半监督LangID(SSLID)进行过滤;Relativerecall检测离群语言和过滤器使用Term-Frequency-Inverse-Internet-Frequency(TF-IIF);使用令牌频率异常分数来检测异常语言并为它们手动设计过滤器;在句子级别对所有语料库进行去重。以下是使用1745语言CLD3LangID模型的网络文本文档一致性分数的直方图。下表2展示了完整的低资源语言(LRL)数据集的单语数据,用于训练模型的部分单语数据,以及包含高资源语言的完整训练集的单语数据统计。章节如下:BuildingMachineTranslationModelsforLong-TailLanguages有了从网络上挖掘的单语数据,下一个挑战是从有限的单语训练数据中创建高质量的通用机器翻译模型。为此,研究人员采用了一种务实的方法,利用所有可用于更高资源语言的并行数据来提高只有单语数据可用的长尾语言的质量。他们称这种设置为“零资源”,因为长尾语言没有直接监督。研究人员利用过去几年为机器翻译开发的几种技术来提高长尾语言的零资源翻译质量。这些技术包括从单语数据进行自我监督学习、大规模多语言监督学习、大规模反向翻译和自我训练、高容量模型。他们使用这些工具创建了能够翻译1000多种语言的机器翻译模型,利用现有的涵盖约100种语言的平行语料库和从网络构建的1000种语言的单语数据集。具体来说,我们首先通过比较15亿和60亿参数Transformer在零资源翻译(3.2)上的性能来强调模型容量在高度多语言模型中的重要性,然后将自监督语言的数量增加到1000种,验证随着来自相似语言的更多单语数据变得可用,大多数长尾语言的性能相应提高(3.3)。虽然研究人员的1000种语言模型表现出合理的性能,但为了了解所用方法的优势和局限性,他们结合了大规模数据扩充。此外,我们通过自训练和反向翻译(3.4)对包含大量合成数据的30种语言的子集的生成模型进行了微调。他们进一步描述了过滤合成数据以增强这些微调模型对幻觉和错误语言翻译的鲁棒性的实用方法(3.5)。我们还使用序列级蒸馏将这些模型提炼成更小、更合理的架构,并突出教师和学生模型之间的性能差距(3.6)。章节如下:评估为了评估他们的机器翻译模型,研究人员首先将英语句子翻译成这些语言,为选定的38种长尾语言构建评估集(4.1)。他们强调了BLEU在长尾设置中的局限性,并使用CHRF(4.2)评估了这些语言。研究人员还提出了一种近似的、基于往返翻译的无参考度量,用于了解参考集不可用的语言模型的质量,并报告了通过该度量衡量的模型质量(4.3)。他们报告了模型在28种语言的子集上的人工评估结果,确认可以按照(4.4)中描述的方法构建有用的机器翻译系统。为了了解大规模多语言零资源模型的弱点,我们对几种语言进行了定性错误分析。事实证明,该模型经常混淆分布相似的词和概念,例如“老虎”变成“小鳄鱼”(4.5)。在较低的资源设置(4.6)中,模型翻译令牌的能力会降低出现频率较低的令牌。研究人员还发现,这些模型通常无法准确翻译短词或单词输入(4.7)。蒸馏模型的结果表明,所有模型都更有可能放大训练数据中存在的偏差或噪声(4.8)。章节如下:AdditionalExperimentsandAnnotations研究人员对上述模型进行了一些额外的实验,表明它们在不使用英语作为支点(5.1)的情况下,在相似语言之间的直接翻译方面通常表现更好,并且它们可以用于不同脚本之间的零镜头音译(5.2)。他们描述了一种实用技巧,可将终端标点符号附加到任何输入,称为“句点技巧”,可用于提高翻译质量(5.3)。此外,我们证明了这些模型对于在某些但不是所有语言中使用非标准Unicode字形具有鲁棒性(5.4),并探索了几种非Unicode字体(5.5)。章节目录如下:更多研究内容,请参阅原论文。
