本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。最近,谷歌发布了一个包含7个语言释义对的新数据集,即:PAWS和PAWS-X。BERT在此数据集上训练的释义对的准确性提高了约3倍;其他最先进的模型也能够使用此数据集将准确度提高到85-90%。谷歌希望这些数据集有助于推动多语言模型的进一步发展,并发表了介绍该数据集的相关文章,雷锋网AI开发者整理整理如下。背景环境词序和句法结构对句子意义有很大的影响,即使是词序的微小变化也能彻底改变句子的意思,比如下面这组句子:FlightsfromNewYorktoFlorida。(FromNewYorktoFloridaFlightstoFloridafromNewYork.(FlightsfromNewYorktoFlorida)FlightsfromFloridatoNewYork.(FlightsfromFloridatoNewYork)虽然这三个词都有相同的短语;但是1和2有意义相同的一组句对,我们称其为释义对(paraphrasepairs),而1和3的意义完全相反,因此我们称其为非释义对(non-paraphrasepairs)。ofsentencesisaparaphrasepairiscalledparaphraserecognition.这个任务对于许多实际应用中的自然语言理解(NLU)处理非常重要,例如常见的问答任务。令人惊讶的是,即使是最先进的模型,如BERT无法正确识别大多数非释义对(比如1和3之间的区别)。一个很大的原因是现有的NLU数据集中缺乏这样的训练数据。因此,即使现有的机器学习模型可以理解c复杂的上下文短语很好,他们仍然很难对这类任务做出判断。PAWS数据集和PaWS-X数据集为了解决这个问题,我们发布了两个新的数据集,专门帮助社区进行相关研究。数据集包括:ParaphraseAdversariesfromWordScrambling,支持英文,PAWS(ParaphraseAdversariesfromWordScrambling,https://arxiv.org/abs/1904.01130)Paraphraserecognition,支持多语言对抗数据集PaWS-X(https://arxiv.org/abs/1904.01130)arxiv.org/abs/1908.11828)其中,PaWS-X数据集是在PAWS数据集的基础上,扩展包含另外六种不同类型的语言释义识别对抗数据集,支持的语言包括:法语、西班牙文中文、德文、中文、日文和韩文。这两个数据集都包含具有高度重叠词汇的格式正确的句子对。大约一半的句子对是释义对,其他的不是,数据集还包含最先进模型的训练数据。对新数据的训练将模型在释义识别任务上的准确性从50%提高到85-90%。对比之前的情况,即使有新的训练数据可用,没有访问非局部上下文信息的模型仍然无法完成释义识别任务;这个新数据集提供了一种有效的方法来衡量模型对词序和结构的敏感性。工具。数据集详情PAWS数据集共包含108,463组人工标注的句对,来自QuoraQuestionPairs(QQP,https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-对)和维基百科页面(https://www.wikipedia.org/)。PAWS-X数据集包含23,659组由人类判断的PAWS扩展句对和296,406组由机器翻译的训练对。下表给出了数据集的详细统计信息。PAWS-X的训练集是从PAWSwiki数据集的一个子集机器翻译而来的。在“中,我们介绍了生成具有高单词重叠的释义句子对的工作流程。要生成数据对,首先将源句传递给专门的语言模型(https://en.wikipedia.org/wiki/Language_model),这将创建语义单词交换的变体句子,但不能保证句子生成之间的关系原句及是否为释义对;然后人类法官判断句子的语法是否正确,然后其他人类法官判断它们是否是互释句子。PAWS语料库创建工作流程的简单换词策略的一个问题是,它往往会产生不符合常识的“释义”,例如:“为什么坏事发生在好人身上”和“为什么好事发生”thingshappentobadpeople”,虽然是同一个词,但是“whybadthingshappentogoodpeople”和“whygoodthingshappentobadpeople”的意思是完全不同的。因此,为了确保释义和非释义之间的平衡,我们添加了其他基于反向翻译的数据信息。因为回译往往表现出与此类方法相反的倾向,它会选择先保留句子的意思,然后在此基础上改变词序和选词。这两种策略共同保证了PAWS语料库的整体平衡,尤其是Wikipedia部分数据。多语言PAWS-X数据集的创建在构建PAWS数据集之后,我们将其扩展到其他六种语言,包括:中文、法语、德语、韩语、日语和西班牙语。在这个过程中,我们使用人工翻译完成句对的翻译扩展和生成测试集,使用神经机器翻译(NMT)服务完成训练集的翻译。我们从六种语言的每个PAWS扩展中随机抽取了4000个句子对(总共48000个翻译)进行人工翻译(翻译人员都是母语人士)。每组句子都是独立的,因此翻译不受上下文的影响,第二个工作人员验证一个随机子集,从而产生一个词级错误率低于5%的数据集。请注意,如果生成的句子不完整或含糊不清,我们允许专业人士不翻译。平均而言,只有不到2%的句子对没有被翻译,我们暂时将它们排除在外。最终的翻译对被分成新的扩展集和测试集,每个包含大约2000个句子对。德语(DE)和中文(ZH)的人工翻译句子对示例使用PAWS和PAWS-X理解语言我们在创建的数据集上训练多个模型,并在评估集上测量分类精度。当使用PAWS训练BERT和DIN等强大模型时,这些模型在现有QQP数据集上训练时的性能会显着提高。如果在现有QQP上进行训练,BERT只能达到33.5的准确度,但是当给定PAWS训练实例时,即使用来自QQP(PAWS-QQP)的PAWS数据,它可以达到83.1的准确度。然而,与BERT不同的是,Bag-of-Words(BoW,https://en.wikipedia.org/wiki/Bag-of-words_model)模型无法从PAWS训练示例中学习,这也证明了其捕获非本地的能力上下文信息方面的弱点。但总的来说,这些结果表明PAWS可以有效地衡量模型对词序和结构的敏感性。PAWS-QQPAccuracyEvaluationSettings(English)下图展示了主流的多语言BERT模型(https://github.com/google-research/bert/blob/master/multilingual.md)在PAWSX上使用几种常用的性能由该方法演示,其中:零射击:该模型使用支持英语的PAWS数据集进行训练,然后直接评估所有其他翻译,这是一种不涉及机器翻译的方法。(延伸:Zero-Shottranslation是指在完成A语言到B语言的翻译训练后,A语言到C语言的翻译不需要任何进一步的学习,它可以自动将之前的学习结果转换为任何一种translations.language,即使工程师从未接受过这方面的培训)翻译测试:在英语训练数据上训练模型并将所有测试用例翻译成英语进行评估。TranslateTrain:英语训练数据被机器翻译成每种目标语言,为训练每个模型提供数据。合并:在所有语言上训练多语言模型,包括原始英语对和所有其他语言的机器翻译数据。结果表明,新的数据集不仅为跨语言技术提供了帮助,而且为推动多语言释义识别问题的研究留下了很大的空间。基于BERT模型的PAWS-X测试集准确度数据集下载相关PAWS-Wiki本语料包含维基百科页面生成的句对(直接下载),包括:和反向翻译方法生成的句对。所有组对可解释性和流畅性都有人为判断,分为训练/扩展/测试部分。PAWS-Wik标签集(仅限交换)包含没有反向翻译的句子对,因此该子集不包含在第一组中。但该数据集质量较高,包含对解释和流畅度的人工判断,可以作为辅助训练集。PAWS-Wik未标记集(最终版本)包含从单词交换和反向翻译方法生成的句子对。然而,这个带有噪声标签但没有人为判断的子集也可以用作辅助训练集。PAWS-QQP该语料库包含从QQP语料库生成的对,但由于QQP的许可,我们无法直接访问PAWS-QQP数据,因此我们必须通过下载最原始的数据,然后运行脚本来重建示例生成数据并附加标记。重建PAWS-QQP语料库,首先需要下载原始QQP数据集,并将tsv文件保存到某个位置/path/to/original_qqp/data.tsv;然后从特定链接下载PAWS-QQP索引文件。PAWS-X该语料库包含六种不同语言的PAWS示例翻译:法语、西班牙语、德语、中文、日语和韩语。可以在此处查看详细信息(https://github.com/google-research-datasets/paws/tree/master/pawsx)。注意,对于多语言实验,使用paws-xrepo中提供的dev_2k.tsv作为所有语言(包括英语)的扩展集。数据集下载地址:https://github.com/google-research-datasets/paws原文链接:https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new。网页格式
