当前位置: 首页 > 科技观察

支持108种语言的谷歌翻译如何利用AI让翻译质量越来越好?

时间:2023-03-16 20:21:45 科技观察

本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。谷歌表示,它在提高语言翻译质量方面取得了进展。在即将发布的博客文章中,该公司详细介绍了增强谷歌翻译支持的108种语言(尤其是数据匮乏的约鲁巴语和马拉雅拉姆语)的新创新。中文),该服务平均每天翻译1500亿字。自谷歌翻译公开亮相13年来,神经机器翻译、基于重写的范式和本地处理等技术使该平台的翻译准确性实现了可量化的飞跃。但直到最近,最先进的翻译算法还落后于人类。谷歌之外的努力也说明了问题的难度。Masakhane项目旨在实现非洲大陆上千种语言的自动翻译,但尚未通过数据收集和转录阶段。CommonVoice(雷锋网注(公众号:Leifeng.com),CommonVoice是Mozilla发起的众包项目,旨在为语音识别软件创建免费数据库)自2017年6月上线以来,Mozilla为建立转录开源语音数据集的努力仅审查了40种声音。谷歌表示,其在翻译质量方面的突破并非由单一技术驱动,而是针对资源较少的语言、高质量的源语言、整体质量、延迟和整体推理速度的技术组合。2019年5月至2020年5月期间,谷歌翻译在所有语言上平均提高了5分或更多,在50个最低级别的翻译中平均提高了7分或更多。此外,谷歌表示,“翻译”对于机器翻译协会来说已经变得更加强大,这种现象是当输入泰卢固语字符“??????”,“深圳深圳逸夫国际机场(SSH)”时,AI模型会产生奇异的翻译“Shshshshshshshshshshshshshsh”。混合模型和数据挖掘器这些技术中的第一项是翻译模型架构——一种由Transformer编码器和递归神经网络(RNN)解码器组成的混合架构。在机器翻译中,编码器通常将单词和短语编码为内部表示,然后解码器使用它来生成所需语言的文本。谷歌研究人员于2017年首次提出的基于Transformer的模型在这方面比RNN更有效,但谷歌表示其工作表明大部分质量提升仅来自Transformer的一个组件:编码器。这可能是因为虽然RNN和Transformer都是为处理有序的数据序列而设计的,但Transformer不需要按顺序处理序列。换句话说,如果所讨论的数据是自然语言,Transformer在处理结尾之前不需要处理句子的开头。尽管如此,RNN解码器在推理时仍比“Transformer”中的解码器“快得多”。意识到这一点,谷歌翻译团队优化了RNN解码器,然后将其与Transformer编码器结合,创建了一个比四年前基于RNN的神经机器翻译模型低延迟、更高质量、更稳定的模型。替代的混合模型。图:谷歌翻译模型自2006年成立以来的BLEU分数。(图片来源:谷歌)除了新颖的混合模型架构外,谷歌还从数百万个示例翻译(文章、书籍)中编译了用于编译训练集的数据、文档和网络搜索结果)。一只十岁的爬行动物。新的翻译器基于14种主流语言的嵌入,而不是基于字典——这意味着它使用真实的向量来表示单词和短语——更注重精度(相关数据与检索数据的比率)来思考(实际上检索了接收到的相关数据总量的一部分)。谷歌表示,在使用过程中,翻译人员提取的句子数量平均增加了29%。噪声数据和迁移学习另一个翻译性能提升来自更好地处理训练数据中噪声的建模方法。观察到噪声数据(包含大量无法正确理解或解释的信息的数据)会影响语言的翻译,谷歌翻译团队部署了一个系统,该系统使用训练有素的模型为噪声数据的示例分配分数进行调优,并在“干净”的数据上进行。实际上,这些模型开始对所有数据进行训练,然后逐步对更小、更干净的子集进行训练,这种方法在AI研究界被称为课程学习。对于资源匮乏的语言,谷歌在Translate中实施了一种反向翻译方案以增加并行训练数据,其中语言中的每个句子都与其翻译配对。(机器翻译传统上依赖于源语言和目标语言中句子对的语料库统计)在这个方案中,训练数据自动与合成并行数据对齐,使得目标文本是自然语言,而源文本是通过神经网络生成的翻译模型。结果是谷歌翻译利用更丰富的单语文本数据来训练模型,谷歌表示这对提高流利度特别有用。图:带翻译的谷歌地图。谷歌翻译现在也利用了M4建模,这是一种在多种语言和英语之间进行翻译的大型模型M4。(M4于去年在一篇论文中首次提出,证明它在对100多种语言的250亿句对进行训练后,提高了30多种低资源语言的翻译质量。)M4建模使GoogleTranslateTransferlearning成为可能,收集包括法语、德语、西班牙语在内的高资源语言(拥有数十亿个并行示例)用于训练和提升性能,可应用于约鲁巴语、信德语、夏威夷俚语等翻译(仅数万个示例)).展望未来据谷歌称,自2010年以来,翻译每年至少提高1个BLEU点,但自动化机器翻译绝不是答案。谷歌承认,即使是其增强型模型也容易出错,包括混淆一种语言的不同方言、产生过多的直译,以及在某些主题和非正式或口头语言上表现不佳。微软试图通过各种方式解决这个问题,包括通过其谷歌翻译社区计划招募志愿者,通过翻译单词和短语或检查翻译的正确性来帮助提高低资源语言的翻译质量。仅在2月份,该计划就结合新兴的机器学习技术,为总计7500万讲五种语言的人增加了翻译:基尼亚卢旺达语、奥里亚语(Oriya)、鞑靼语、土库曼语和维吾尔语(Uyghur)。谷歌并不是唯一寻求真正通用翻译的公司。2018年8月,Facebook发布了一种AI模型,该模型结合了逐字翻译、语言模型和反向翻译,可以更好地进行语言配对。最近,麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型,即可以从未明确标记或分类的测试数据中学习的模型,可以从两种语言的文本中学习。语言之间无需直接在两种语言之间进行翻译。谷歌在一份声明中外交地表示,它对“学术界和工业界”的机器翻译研究表示感谢,其中一些已经为他们的工作提供了信息。“我们通过综合和扩展各种最新进展(谷歌翻译最近的改进)来做到这一点。通过这次更新,我们为提供相对一致的自动翻译感到自豪,即使在108种支持的语言中也是如此,”该公司表示。至少。”