当前位置: 首页 > 科技观察

500亿参数,支持103种语言:谷歌推出“全球文本翻译”模型

时间:2023-03-13 08:29:15 科技观察

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究人员提出了一种能够翻译103种语言的大规模多语言神经机器翻译模型,在数据丰富和稀缺的语言翻译方面都取得了显着的性能提升。他们训练了250亿个句子对,参数超过500亿个。在过去几年中,由于神经机器翻译(NMT)的发展,机器翻译(MT)系统的质量有了显着提高,打破了世界各地的语言障碍。但NMT的成功很大程度上归功于监督训练数据。那么数据很少或没有数据的语言呢?多语言NMT是一种有效的解决方案,它有一个归纳偏差,即“从一种语言中学习的信号应该有助于提高其他语言的翻译质量”。多语言机器翻译使用单一语言模型处理多种语言。数据贫乏语言的多语言训练的成功已经应用于自动语言识别和文本转语音等系统。谷歌的研究人员此前曾探索过扩展单个神经网络可以学习的语言数量,同时控制每种语言的训练数据量。但是,如果删除所有约束会发生什么?我们能否使用所有可用数据训练单个模型——即使数据在大小、脚本、复杂性和领域方面有所不同。在一篇题为“MassivelyMultilingualNeuralMachineTranslationintheWild:FindingsandChallenges”的论文和随后的几篇论文中,谷歌的研究人员在100多种语言和英语之间的Translate的超过250亿句对上训练了一个NMT模型,其中有更多超过500亿个参数。它们产生了一种大规模多语言、大规模神经机器翻译方法M4,它在数据丰富和稀缺的语言中都取得了显着的性能提升,可以很容易地适应单一领域/语言,并且可以有效地应用于下游语言迁移任务。Large-ScaleMultilingualMachineTranslation尽管跨语言的数据倾斜是NMT任务中的一大挑战,但这种倾斜也为研究迁移创造了一个理想的场景,即在一种语言上训练的信息可以在翻译中应用于其他语言。法语、德语、西班牙语等数据丰富的语言占据分布的一端,提供数十亿平行语料库;约鲁巴语、信德语、夏威夷语等数据匮乏的语言占据了分布的另一端,只有数万个平行语料库。语料库。所有语言对的数据分布(取对数)和在每个特定语言对上训练的双语基线的相对翻译质量(BLEU分数)。在使用所有可用数据(来自103种语言的250亿个样本)进行训练后,研究人员观察到数据贫乏语言的强烈正迁移趋势,超过30种语言的翻译质量有了显着提高,数据分布的尾部BLEU分数平均提高5分。这种效果是已知的,但非常令人鼓舞,因为比较是在双语基线(即仅在特定语言对上训练的模型)和具有相似表示能力的单一多语言模型之间进行的。这一发现表明,大规模多语言模型可以有效地概括并捕捉大量语言之间的代表性相似性。单个大规模多语言模型与双语基线模型的翻译质量比较。在EMNLP2019的一篇题为“InvestigatingMultilingualNMTRepresentationsatScale”的论文中,谷歌的研究人员比较了跨多种语言的多语言模型的表征能力。他们发现多语言模型在没有外部约束的情况下学习语言相似语言的共享表示,验证了利用这些相似性的长期直觉和实验结果。在“评估大规模多语言神经机器翻译的跨语言有效性”中,研究人员进一步证明了这些学习表征对于下游任务中跨语言迁移的有效性。基于表示相似性,对所有103种语言编码的表示聚类进行可视化。不同的颜色代表不同的语系。建立大规模神经网络后,数据贫乏语言的数量增加后,数据丰富语言的翻译质量开始下降。这种下降可以在多任务设置中观察到,这是由于任务之间的竞争和传输的单向性质(即从数据丰富的语言到数据贫乏的语言)造成的。研究人员探索了可以更好地学习和实现容量控制的算法,以此来解决这种负迁移问题。在此过程中,他们还通过增加神经网络模型的参数数量来提高其表征能力,从而提高数据丰富语言的翻译质量。还有其他几种方法可以增加神经网络的能力,包括增加层数、增加隐藏表示的宽度等。为了训练更深层次的翻译模型,研究人员使用GPipe训练了一个128层和6个以上的Transformer亿个参数。模型能力的提升导致所有语言的翻译质量显着提升,BLEU分数平均提高5分。他们还研究了深度网络的其他属性,包括深度-宽度权衡、可训练性挑战以及将变换器扩展到1500层和840亿个参数的设计选择。虽然扩展深度是提高模型能力的一种方法,但探索可以利用问题的多任务性质的架构是一种非常可行的补充方法。研究人员修改了Transformer的架构,用专家的稀疏门控混合替换原来的前馈层,显着提高了模型能力,使我们能够成功训练和传输500亿个参数,从而进一步提高翻译质量。与103种双语翻译的基准相比,谷歌的新方法增加了单个多语言模型的容量(参数数量),从而提高了翻译质量。使M4模型实用化对于每个语言领域或迁移任务,训练一个大的模型并花费大量的计算能力是非常不经济的。谷歌提出的方法通过使用容量可扩展层使新模型适应特定语言或领域而不改变原始模型,使这些模型更加实用。展望未来研究表明,到21世纪末,全球至少有7000种目前使用的语言将不复存在。多语言机器翻译系统能拯救这些语言吗?谷歌认为M4是通往另外1000种语言翻译之路上的基石。从这样的多语言模型开始,即使没有平行语料库,我们也可以轻松地将机器翻译扩展到新的语言、领域和下游任务。在通用机器翻译方向,许多有前途的解决方案似乎是交叉的,多语言NMT正在成为多任务学习、元学习、深度网络训练等机器学习技术的理想试验台。