当前位置: 首页 > 科技观察

谷歌发布TyDiQA语料库,涵盖11种不同语言

时间:2023-03-22 13:18:51 科技观察

当人们在日常生活中遇到“鱿鱼墨汁可以安全食用吗?”等问题时,问答技术可以帮助他们解决问题。用户可以询问语音助手或输入搜索内容并期待答案。去年,我们向研究社区发布了英文版的NaturalQuestions数据集,以提供反映真实用户需求的挑战。然而,世界上有成千上万种不同的语言,其中许多语言使用截然不同的方法来构造语义。例如,在英语中,一个对象(“book”)和多个对象(“books”);而在阿拉伯语中,还有第三种形式,除了单数形式(“????”,kitab)或复数形式(“???”,kutub)外,还有两个宾语形式(“??????”,kitaban)。此外,某些语言(例如日语)不在单词之间使用空格。创建一个能够理解语言表达意义的多种方式的机器学习系统是一个挑战,训练这样的系统需要来自它们将被应用到的不同语言的样本。为了鼓励对多语言问答技术的研究,今天我们发布了TyDiQA,这是一个涵盖11种不同类型语言的问答语料库。在我们的论文《TyDi QA:不同类型语言中信息查询问答系统的基准》(TyDiQA:类型多样语言中的信息搜索问答基准)中描述,我们的语料库受到类型多样性的启发,类型多样性是不同语言结构表达含义的概念。因为我们为这个语料库选择了一组类型学上彼此相距较远的语言,所以我们期望在这个数据集上表现良好的模型能够泛化到世界上大量的语言。多样化的语言集TyDiQA包括来自11种语言的超过200,000个问答对,代表了一系列不同的语言现象和数据挑战。其中许多语言使用非拉丁字母,例如阿拉伯语、孟加拉语、韩语、俄语、泰卢固语和泰语。还有一些单词的组成方式比较复杂,比如阿拉伯语、芬兰语、印度尼西亚语、斯瓦希里语、俄语等。日语用四个字母,比如:用四种颜色表示,韩文字母本身就有很强的组合性。语言也从在线可用的大量数据(例如英语和阿拉伯语)到很少的数据(例如孟加拉语和斯瓦希里语)不等。我们希望能够应对这些挑战的系统能够在多种语言中取得成功。创建真实数据研究社区使用的许多早期QA数据集是通过首先给人们一篇文章然后要求他们根据他们阅读的内容写出问题来创建的。然而,由于人们在写下每个问题时都能看到答案,因此通过这种方法生成的问题通常包含与答案相同的单词。因此,在此类数据上训练的机器学习算法更倾向于单词匹配,而不是满足用户需求所需的更细微的答案。为了构建一个更自然的数据集,我们从那些想要答案但还不知道答案的人那里收集了问题。为了激发问题,我们向人们展示了一段用他们的母语写成的维基百科的有趣段落。然后我们让他们问一个问题,任何问题,只要我向他们展示的内容没有得到回答并且他们真的想知道答案。这类似于当你在街上闲逛时,你的好奇心可能会导致对你看到的有趣事物产生疑问。我们鼓励他们在提问时发挥想象力。例如,一篇关于冰的文章是否会让你想起夏天的冰棒?出色的!问问谁发明了冰棒。重要的是,问题是直接用一种语言写的,没有翻译,所以很多问题都与英语语料库中看到的不同。孟加拉语问题:“????????????????”(人心果的味道如何?)从未听说过人心果?这可能是因为人心果在印度比在美国更常见。对于这些问题中的每一个,我们都在谷歌上搜索了最接近的、使用适当语言的维基百科文章,并要求提问者在文章中找到并突出显示答案。当提问者没有找到答案时,我们预计问题和答案之间会出现一些有趣的分歧,结合世界语言中惊人广泛的语言现象,我们发现情况更加复杂。例如,在芬兰语中,有一些有趣的例子,其中日和周这两个词在问题和答案中的表达方式非常不同。要从整个维基百科文章中成功选择这个答案句子,系统需要能够识别芬兰语单词viikonp?iv?t、seitsenp?iv?inen和viikko之间的关系。随着研究界共同进步,我们希望这个数据集能够推动研究界的创新,为全球用户创建更有用的问答系统。为了跟踪社区的进展,我们建立了一个排行榜,参与者可以在其中对其机器学习系统的质量进行评分,我们还开源了一个使用该数据集的问答系统。要查看排行榜并了解更多信息,请访问挑战网站。关于作者:JonathanClark是GoogleResearch的研究科学家。