Facebook刚刚开源了多语言机器翻译模型“M2M-100”,谷歌也来了。谷歌宣布基于T5的mT5多语言模型正式开源。最大的模型有130亿个参数。与Facebook的M2M相比,参数更少,支持的语言更多。日前,Facebook发布了一款型号为M2M-100的机器,可以实现数百种语言之间的互译。谷歌在这里很着急。翻译是我的老职业。刚刚,谷歌也发布了一款名为mT5的模型,在一系列英语自然处理任务上攻克了各种SOTA。你发,我也发,你支持100种,我支持101种!(虽然拥有更多这个没有多大意义,但你不能失去动力)mT5是谷歌T5模型的多语言变体。训练数据集涵盖101种语言,包含3亿到130亿个参数。看,确实是一个很大的模型。多语言模型是通向AI的桥梁,却难免输出“有毒”世界上大约有7000种系统语言。尽管人工智能在计算机视觉和语音识别领域已经超越了人类,但它仅限于少数几种语言。将通用的AI能力迁移到小语种上,几乎等同于从头开始,得不偿失。因此,跨语言成为AI能力迁移的重要桥梁。多语言AI??模型设计的目标是构建一个可以理解世界上大部分语言的模型。多语言AI??模型可以在相似语言之间共享信息,减少对数据和资源的依赖,并允许少样本或零样本学习。随着模型大小的增加,通常需要更大的数据集。C4是从公共网站获得的大约750gb的英文文本的集合。mC4是C4的变体。C4数据集主要是为英语任务设计的。mC4收集了过去71个月的网页数据,涵盖107种语言。比C4使用的源数据多得多。mC4中各种语言的网页数量提供了语言模型放大数据集中存在的偏差的证据。尽管有研究人员声称目前的机器学习技术很难避免“有毒”的输出,但谷歌研究人员一直在努力缓解mT5的偏差,比如过滤数据中带有极端语言的页面,使用cld3检测语言页面,置信度低于70%的页面直接删除。mT5:25万词汇量,多语言数据采样策略是关键。mT5的模型架构和训练过程与T5非常相似。mT5是基于T5中的一些技术,比如利用GeGLU的非线性(Shazeer,2020),在更大的模型中Scaledmodel而不是dff来改进T5,并且只在未标记的数据上进行预训练而不会丢失信息。训练多语言模型最重要的一点是如何从每种语言中采样数据。然而,这种选择是一个零和游戏:如果低资源语言被过于频繁地采样,模型可能会过拟合;如果高资源语言没有得到足够的训练,模型的泛化能力将受到限制。因此,研究团队采用了Devlin和Arivazhagan等人使用的方法,按照概率p(L)∝|L|^α对资源较少的语言进行采样。其中p(L)是预训练期间从给定语言中抽样的概率,|大号|是语言中的样本数,α是超参数,谷歌通过实验发现0.3对α效果最好。为了容纳更多语言,mT5将其词汇量增加到250,000个单词。和T5一样,使用SentencePiece和wordPiece来训练模型。Sentencepiece显示采样后有部分字符没有被覆盖,怎么办?为了容纳大字符集的语言,比如中文,研究团队使用了0.99999的字符覆盖率,同时启用了SentencePiece的“字节回退”特性,以确保任何字符串都可以被唯一编码。为了使结果更加直观,研究人员与现有的大规模多语言预训练语言模型进行了简要对??比,主要是支持数十种语言的模型。mT5擅长各种SOTA,但benchmark测试未必能代表实力。截至2020年10月,实验中最大的mT5模型拥有130亿个参数,超过所有测试基准,包括来自XTREME多语言基准测试的5个任务,涵盖14种语言的XNLI衍生任务、XQuAD、MLQA和TyDiQA/阅读分别有10、7和11种语言的理解基准,以及7种语言的PAWS-XParaphraseIdentification。从实验结果可以看出,mT5模型在阅读理解、机器问答等各项基准测试中均优于之前的预训练语言模型。基准是否充分反映了模型在生产中的表现是另一回事。预训练语言模型最直接的测试方法是开放域问答,看训练好的模型是否可以回答以前没有见过的新问题。目前即使强如GPT-3,也经常答错问题。但谷歌研究人员断言,mT5是迈向不需要复杂建模技术的强大模型的一步。总体而言,mT5证明了跨语言表示学习的重要性,并表明通过过滤、并行数据或其他一些调整技巧实现跨语言能力迁移是可行的。该模型源自T5,完全适用于多语言环境。
