目前的多语言翻译模型大多在以英语为中心的数据集上训练一个统一的模型,通过添加语言标签的方式告诉模型应该翻译哪种语言到。这种模型在预测的时候可以直接给一个非英语的句子加上另外一个非英语的语言标签进行直接翻译,这样即使在训练的时候源语言和目标语言都没有见过,模型也可以实现。翻译,这就是所谓的零样本多语言翻译。添加语言标签的方法有很多种。火山翻译团队的研究人员通过实验研究发现,虽然不同的语言标签对监督方向的效果影响不大,但对零样本的效果却有非常大的影响。这种现象已经在多个数据集上得到验证,在IWSLT17上相差14.02BLEU,在Euporal上相差24.24BLEU,在TEDtalks上相差8.78BLEU。该研究已被ACL2021的findings接受。论文地址:https://arxiv.org/abs/2106.07930研究背景和动机在多语言翻译中,添加语言标签的方式有很多种,一般认为不同的语言标签添加方法对模型的性能没有影响。然而,之前没有研究人员系统地研究过语言标签是否对翻译模型有影响。本文比较了四种常见的添加语言标签的方法。表1四种不同的语言标签如表1所示,这四种方法会以不同的方式在源句开头或目标句开头添加源语言标签和目标语言标签。表2数据集的详细信息如表2所示。本文选取三个数据集,IWSLT17、Euporal和TEDtalks。这三个数据集在语言数量和数据集规模上都有比较大的差异。本文基于以上四种不同的语言标签,在这三个数据集上训练了一个配置完全相同的多语言翻译模型。实验结果表3实验结果如表3所示,可以看出:1.对于不同的语言标签和不同的数据集,模型在监督方向上的表现基本一致。2.零射方向:不同的语言标签对模型的性能影响很大,T-ENC的性能在三个数据集上始终超过其他三个标签:在IWSLT17上超过14.02BLEU,在Euporal上超过24.24BLEU,在TED上超过8.78BLEU会谈。b.不同语言标签造成的脱靶率也不同(脱靶是指翻译成X语言,却翻译成另一种语言的情况),基本上T-ENC的脱靶率一定是比其他的小,这与模型在零样本上的表现基本一致。分析那么是什么原因造成了这种现象呢?本文试图从三个方面解释这一现象,并在TED数据集上进行了实验:1.在目标语言相同的情况下,添加语言标签的方式是否影响不同语言句子表示的一致性编码器性之后?2.T-ENC可以获得比其他方法更小的脱靶率。是因为它的注意力机制在预测的时候能更好的注意到语言标签吗?3.不同语言的同义句子在翻译模型的每一层有多相似?Encoder表示的一致性上图是使用t-SNE对Encoder的输出进行归约,然后使用kde绘制的分布图,展示了同一目标语言下不同语言的句子分布情况。可以发现,T-ENC的不同语言之间Encoder表示的分布比较一致。这表明T-ENC可以帮助模型学习与语言无关的编码器表示。缓解脱靶问题上图通过案例展示,将俄语句子翻译成意大利语句子时,在不同的语言标签下,模型的注意力“集中”在了意大利语标签上。显然,在使用T-ENC时,模型对意大利标签的关注度最高,这可以部分解释为什么T-ENC的脱靶率最小。SimilarityofDifferentLayers上图子图a展示了从英语和俄语以外的18种语言翻译成俄语时不同语言的同义句子的相似度。可以看到T-ENC的相似度曲线总是在其他语言标签之上,这说明在目标语言相同的情况下,T-ENC的各层表示比其他方法具有更好的一致性。上图子图b展示了同一个俄语句子在从俄语翻译成除英语和俄语以外的18种语言时在不同目标语言中的相似度。可以看出,T-ENC的相似度曲线几乎始终低于其他语言标签,这表明T-ENC在目标语言不同的情况下更擅长生成目标语言相关的表示。总结本研究发现不同语言标签对多语言零样本翻译有巨大影响,并在数据差异较大的三个不同数据集上进行实验,验证不同语言标签对多语言零样本翻译有真实影响。有一个巨大的影响,表明T-ENC在零镜头上优于其他语言标签。同时,该研究还分析了不同语言标签在预测时对模型表示的影响,发现T-ENC可以更好地获得与目标语言相关但与源语言无关的表示:1.T-ENC可以让不同的源语言句子Encoder后的表示更加一致。2.T-ENC的注意力机制可以更好的注意到目标语言的语言标签。3.T-ENC在不同层的表示比其他方法更与目标语言相关。
