具有语言能力的深度学习系统已经广泛应用于人们的生活中。其中一些系统使用谷歌发布的一种特定的深度学习模型,称为多语言BERT(简称MBERT)。mBERT模型可以同时用大约100种语言进行训练,这种多语言训练让模型可以完成各种语言任务,比如将文本内容从一种语言翻译成另一种语言。虽然已发现mBERT模型在许多语言任务中表现良好,但人们对mBERT模型如何创建文本和进行预测知之甚少。为此,斯坦福大学、加州大学欧文分校和加州大学圣巴巴拉分校的研究人员进行了一项新研究,旨在更好地了解基于mBERT模型的技术如何工作,以及如何创建语法特征。相关研究成果以“DeepSubjecthood:Higher-OrderGrammaticalFeaturesinMultilingualBERT”为题发表在论文预印本网站arXiv上。该论文为这些常用模型的基础以及它们在执行各种任务时如何分析语言提供了宝贵的线索。神秘的mBERT模型在过去的几十年里,研究人员开发了基于深度神经网络的模型,可以完成各种各样的任务。其中一些技术专门设计用于处理和生成多种语言的连贯文本、翻译文本、回答有关文本的问题,以及创建新闻文章或其他在线内容的摘要。典型代表有Siri、Alexa、Bixby、GoogleAssistant和Cortana等应用,为实时翻译和文本分析提供了极大的便利。这些应用程序大多使用谷歌发布的mBERT模型,用户可以使用多种语言(如英语、西班牙语、法语、巴斯克语和印度尼西亚语)与基于mBERT的系统进行交互。虽然像mBERT这样的模型非常强大,但与预训练的深度学习模型不同,它们实际包含的信息并不明显,即使对它们的创建者来说也是如此。这是因为这些模型是经过训练的,而不是经过编程的。因此,探索mBERT模型的工作原理成为了众多用户关心的问题。理解mBERT模型如何编码语言与试图理解人类如何处理语言并没有太大区别。这项研究的主要目的是确定mBERT向量模型是否包含有关人类语言及其结构的一些更深层信息。更具体地说,他们想确定这些模型是否可以自动揭示几十年来语言研究已经确定的概括,以及对语言分析有用的信息。致力于理解mBERT模型从本质上讲,mBERT模型将文本表示为一系列向量,每个向量包含数千个数字。每个向量对应一个单词,单词之间的关系被编码为高维空间中的几何关系。“因为这些模型在处理人类语言方面做得很好,我们知道这些数字向量必须代表语言知识,”加州大学圣巴巴拉分校的语言学家KyleMahowald说,他是领导这项研究的高级研究人员之一。但是他们如何编码这些信息,这与知识在人脑中的表示方式有何相似之处?我们的工作是理解语言的深层神经模型表示和使用语言信息的方式的一部分。”加州大学尔湾分校该项目的另一位高级顾问。多年来,语言学家一直在谈论诸如“语义空间”之类的概念,即单词和短语的含义是某个空间中的一个点,但这一切似乎有点模糊和印象。今天,这些理论已经变得非常精确:我们实际上有一个模型,其中单词的含义是空间中的某个点,并且该模型的行为方式确实表明它理解某些人类语言。”为了处理人类语言,在对人类语言进行深入分析后,mBERT模型等基于深度学习的语言分析框架,实际上是语言学研究人员对人类语言进行深入分析后提出的一种理论,可能有被重新发现。或者,他们的预测可能基于全新的语言学理论或规则。在这方面,Mahowald和他的同事希望进一步探索这两种可能性,因为了解这些计算技术如何编码语言可能对计算机科学和语言学的研究具有重要意义。Futrell说:“了解这些模型的工作原理、它们学习的信息以及它们的使用方式,不仅在科学上很有趣,而且如果我们想开发我们可以使用和信任的AI系统,这也是至关重要的。”如果我们不知道语言模型知道什么,那么我们就不能相信它会做正确的事情。也就是说,我们不相信它的翻译是正确的或者它的摘要是准确的,我们也不能相信它没有学到种族或性别偏见等坏东西。“因为mBERT模型通常是在人工编译的数据集上训练的,所以它们可能会发现人类在处理与语言相关的问题时经常犯的一些错误。这项由多学科团队进行的研究可能有助于发现AI工具在分析时犯的一些错误和其他错误识别不同语言中的主体和客体为了更深入地了解mBERT模型,研究人员着手研究mBERT模型如何表示不同语言中主体和客体之间的差异。Mahowald说:“当你喂养一个将句子输入mBERT,你会得到每个单词的向量表示。我们建立了一个比mBERT小得多的新模型,我们问:如果我们从mBERT得到一个词向量,这个模型能告诉我们它是一个主题还是一个对象吗?也就是说,模型能否告诉我们“dog”这个词的用法是句子的主语,如“thedogchasesthecat”,还是句子的宾语,如“thecatchasesthedog”.“人们可能会认为所有语言都描述了主客体之间的关系,并且它们以相似的方式表示。但是,不同语言的主客体构成实际上存在巨大差异。”论文的作者之一、斯坦福大学计算机科学研究生IsabelPapadimitriou和她的同事试图利用这些差异来更好地理解mBERT模型如何处理句子。“如果人们使用英语,'dogschasingcats'中的'dog'这个角色'似乎与'TheDogRunsAway'中的角色'dog'扮演相同的角色。在第一种情况下,动词有宾语'cat'在第二种情况下,它没有宾语。但是在这两种情况下,“狗”都是主语、主语、执行者,而在第一个句子中,“猫”是宾语并且正在做某事。然而,这不是真的所有语言。”英语和欧洲人使用的大多数语言都有一种称为主格对齐的结构,它清楚地描述了句子的主语和宾语。但是,包括巴斯克语、印地语和格鲁吉亚语在内的语言使用一种代词对齐方式。在代词对齐中,在没有宾语的句子中,主语被认为是宾语,因为它遵循用于宾语的语法结构。例如,“thedogisrunning”这句话中的“dog”这个词在某种程度上既是主语又是宾语。“我们工作的主要目标是测试mBERT是否理解这种对齐、代词或主语的概念,”Papadimitriou说。你如何将空间分成主体和客体?事实证明,同时接受了大约100种语言训练的mBERT以有趣的语言方式意识到了这些区别。”机器可以理解人类语言这些发现为mBERT模型和其他用于语言分析的模型提供了信息计算模型如何表示句法信息提供了新的有趣的见解。有趣的是,研究人员基于mBERT的矢量表示研究的验证模型也被发现会产生一致的错误,这些错误可能与处理语言的人类所犯的错误一致。“在不同的语言中,当主语是无生命的名词时,我们的模型更有可能错误地将主语称为主语,暗示该名词不是人或动物,”Papadimitriou说。这是因为句子Mostoftheactorsin往往是有生命的名词:humanoranimal。事实上,一些语言学家认为主观性实际上是一个光谱。人类受试者比动物受试者更不可能成为受试者动物受试者比既不是人类也不是动物的受试者更‘主观’,这正是我们在mBERT模型中发现的。”总体而言,研究表明mBERT模型可以识别句子中的主宾,并以与现有语言学文献一致的方式表示两者之间的关系。未来,这一重要发现可以帮助计算机科学家更好地理解深度学习技术如何处理人类语言,帮助他们进一步改进Mahowald说:“我们现在希望继续探索语言的深度神经模型在连续向量空间中表示语言类别(例如主体和对象)的方式。”具体来说,我们认为语言学方面的工作可以告诉我们如何思考这些模型和它们在做什么,语言学的工作试图将主体和客体等角色描述为一组特征er而不是离散类别。”
