当前位置: 首页 > 科技观察

新技术,老问题:NLP领域中没有被听到的「声音」

时间:2023-03-21 10:04:38 科技观察

新技术,老问题:NLP领域未被听到的“声音”自然语言处理(NLP)。ImageNet在2010年制作了一个包含20,000张内容标记图像的公共语料库。谷歌在2006年发布了TrillionWordCorpus,并从大量公共网页中获取了n-gram频率。NLP的进步导致机器翻译质量的大幅提升、数字助理的迅速扩张,以及“人工智能是新电力”、“人工智能将取代医生”等说法越来越多。AllenInstitute、HuggingFace和Explosion等组织也发布了在大型语言语料库上预训练的开源库和模型,这使得NLP领域得到了快速发展。最近,NLP技术通过发布公开注释的研究数据集和创建公共响应资源促进了对COVID-19的研究。然而,人工智能领域早已成型。艾伦·图灵(AlanTuring)在1950年提出了“会思考的机器”的思想,体现在当时人们对算法能力的研究上。当时人们希望研究一些过于复杂而无法自动化的问题的算法,比如翻译等问题。在接下来的十年里,投资者看好人工智能并将资金投入研究,从而推动了翻译、对象识别和分类等领域的进步。到1954年,先进的机械词典已经能够根据单词和短语进行合理的翻译。在一定条件下,计算机可以识别和解释摩尔斯电码。然而,到1960年代末,这些研究明显受到限制,实际应用也受到限制。在1973年的一篇论文中,数学家JamesLighthill认为,人工智能研究人员在将他们研究的系统应用于现实世界问题时无法处理各种因素的“组合爆炸”。”。社会上批评声不断,投资资金日趋枯竭,人工智能进入第一个“冬天”,发展基本停滞。图注:AI发展时间线过去几十年,人们对人工智能的兴趣有所下降复兴,技术突飞猛进,近来NLP的研究热点主要是基于Transformer的架构,但是实际应用的问题还是值得一问的,因为人们担心“这些模型到底在学习什么””。2019年的一项研究使用BERT来解决论证理解的难题,其中模型必须根据一组事实确定一个陈述是否合理。BERT实现了最先进的性能,但进一步的研究发现,该模型利用了与论证“推理”无关的语言中的特定线索。有时研究人员能够在应用算法之前修复系统中的所有内容,但有时AI系统仍然存在不应该存在的学习模式。一个典型的例子是COMPAS算法,佛罗里达州使用该算法来确定罪犯是否可能再次犯罪。2016年ProPublica的一项调查发现,该算法预测黑人被告实施暴力犯罪的可能性比白人被告高77%。更令人担忧的是,该算法将高达48%的再次犯罪的白人被告标记为低风险,而黑人的这一比例为28%,相差20%。由于该算法是一种专有算法,因此它可能利用的线索的透明度有限。但由于该算法中不同种族之间的差异如此明显,说明该算法“眼中”存在种族不平等的嫌疑,这不利于算法本身的发挥,也不利于司法系统。图注:COMPAS算法的应用在人工智能领域,这样备受瞩目的失败案例并不少见。亚马逊最近取消了一种人工智能驱动的招聘算法,该算法更有可能推荐男性担任技术职位,这可能是因为它利用了过去的招聘模式。顶尖的机器翻译往往存在性别不平等和语言资源不足的问题。现代NLP存在缺陷的原因有很多。本文将重点关注几个具有代表性的问题:数据和NLP模型的开发代表了谁或什么?这种不平等的表现如何导致NLP技术收益的不平等分配?1“大”就一定“好”吗?一般来说,机器学习模型,尤其是深度学习模型,在数据越多的情况下表现越好。Halevy等人。(2009)解释说,对于翻译任务,在大型数据集上训练的简单模型比在较小数据集上训练的更复杂的概率模型表现更好。孙等。还在2017年重新审视了机器学习可扩展性的想法,指出视觉任务的性能随着提供的示例数量呈对数增长。AI从业者将这一原则牢记在心,尤其是在NLP研究中。自监督目标的出现,例如BERT的掩码语言模型(学习根据上下文预测单词),基本上使整个互联网都可以进行模型训练。2019年的原始BERT模型是在16GB的文本数据上训练的,而最近的模型如GPT-3(2020)是在570GB的数据上训练的(从45TB的CommonCrawl中过滤)。本德尔等。(2021)引用格言“数据越多越好”作为模型规模增长背后的驱动思想。但他们的文章让我思考:这些庞大的数据集包含了什么样的思维?图注:语言模型的大小随着时间的推移而增加维基百科是BERT、GPT和许多其他语言模型的来源。但维基百科的研究发现其编辑所代表的观点存在问题。大约90%的文章编辑是男性,而且他们往往是来自发达国家的受过正规教育的白人男性。他们的身份可能会对维基百科的内容产生影响。例如,只有17%的传记是关于女性的,但编辑提名删除的传记中有41%是关于女性的,女性传记的内容明显高于常规比例。NLP模型的另一个主要来源是GoogleNews,包括原始的word2vec算法。新闻编辑室历来由白人男性主导,这种模式在过去十年中没有太大变化。事实上,这种差异在过去几十年中变得更大,这意味着当模型使用较旧的新闻数据集时,这种代表性不足的问题只会变得更糟。此外,互联网用户往往是年轻、高收入和白人。CommonCrawl是GPT模型的来源之一,它使用的数据来自Reddit,其中67%的用户是男性,70%是白人。本德尔等。(2021)指出像GPT-2这样的模型有一种包含/排除方法,可以删除代表特定社区的语言(例如,通过排除潜在的攻击性词语,代表LGBTQ社区的语言被排除在外)。当今NLP中的许多最先进的性能都需要大型数据集,而这种数据饥渴的驱动力掩盖了对数据中所代表观点的关注。然而,从上述证据可以清楚地看出,一些数据来源并不是“中立的”,而是放大了那些在历史和社会上处于主导地位的人的声音。此外,即使是有缺陷的数据源也不能同样用于模型开发。绝大多数标记和非标记数据仅以7种语言存在,约占所有使用者的1/3。这使得世界上其他2/3的人无法实现这种性能。为了弥合这一差距,NLP研究人员探索了在高资源语言中预训练的BERT模型和在低资源语言中微调的模型(通常称为Multi-BERT),并使用“适配器”来迁移学习跨语言。但总的来说,这些跨语言方法的性能比单语言方法差。这些模型跨语言泛化能力差的事实可能指向一个更大的问题。乔希等人。(2021)这样解释:“NLP系统训练和测试所用的少数几种语言通常是相关的……这导致了类型学回声室。结果,我们的NLP系统从未见过我见过最多不同语言现象的类型。”TheStateandFateofLinguisticDiversityandInclusionintheNLPWorld自然语言处理中的状态和命运如上所述,这些系统非常擅长挖掘语言线索。因此,他们很可能正在利用一组特定的语言模式,因此当这些系统应用于低资源语言时,性能会崩溃。2垃圾进,垃圾出在上面,我描述了现代NLP数据集和模型如何代表一组特定的观点,通常是白人、男性和说英语的人的观点。但每个数据集都必须从其来源开始,解决数据表示中的不平衡问题,例如ImageNet的2019年更新删除了600,000张图像。这种调整不仅是为了统计稳健性,也是对倾向于对女性和有色人种使用性别歧视或种族主义标签的模型的回应。图例:一位Twitter用户发现基于ImageNet的模型生成的图像标签存在偏差。无论我上传什么样的图片,使用带有2500个标签的AI进行分类的ImageNetRoulette都会将我视为“Black”(黑人)、“BlackAfrican”(非洲黑人)、“Negroid”(黑人种族)、“Negro”(黑色)。其他可能的标签包括“Doctor”(医生)、“Parent”(父亲)、“Handsome”(英俊)。所有模型都可能出错,因此在决定是否使用某个模型时务必权衡风险和收益。为了便于评估这种风险收益,我们可以使用现有的通用性能指标来获得“错误”的频率,例如准确性。但我们非常缺乏理解的是,这些错误是如何分布的?如果一个模型在一组中的表现比在另一组中的表现差,则意味着该模型可能以牺牲另一组为代价使一组受益。我将这种不平等的风险收益分配称为“偏见”。统计偏差被定义为“结果的预期值与估计的真实潜在定量参数之间的差异”。机器学习中有很多类型的偏差,但我将主要讨论“历史偏差”和“表示偏差”。历史偏见是指世界上已经存在的偏见和社会技术问题如何反映在数据中。例如,当在ImageNet上训练的模型输出种族主义或性别歧视标签时,它正在复制训练数据的种族主义和性别歧视。代表性偏差是由我们定义人口和从人口中抽样的方式引起的。因为我们的训练数据来自特定群体的视角,所以我们期望训练好的模型能够代表这个群体的视角。在NLP领域,人们对词嵌入模型word2vec和GloVe中存在的偏差进行了深入研究。这些模型是许多下游任务的基础,它们提供包含句法和语义信息的词表示。它们都基于自我监督技术来根据上下文表示单词。如果这些表征反映了一个词的真实“含义”,那么我们可以想象,与职业相关的词,如“工程师”或“管家”,是不分性别和种族的,因为职业类型与特定人群无关.连接。然而,Garg等人。(2019)发现职业词汇的表示不是性别中立或种族中立的。诸如“管家”之类的职业词与女性词(例如“她”和“她”)的关联比男性词更多,而“工程师”等嵌入词更接近男性词。这些问题还延伸到种族,与西班牙裔相关的词更接近于“管家”,与亚洲人相关的词更接近于“教授”或“化学家”。图例:此表显示了与西班牙裔、亚洲人和白人关系最密切的前十种职业类型。引自Garg等人。(2019)论文“Wordembeddingsquantify100yearsofgenderandethnicstereotypes”(《词嵌入量化100年来的性别和种族刻板印象》)。这些问题也存在于大型语言模型中。例如,赵等人的工作。(2019)表明,ELMo嵌入将性别信息纳入职业术语,并且在编码男性性别信息方面比女性做得更好。盛等人的工作。(2019)还发现,当使用GPT-2完成包含人口统计信息(即性别、种族或性取向)的句子时,会产生有偏见的结果。图例:此表显示了在不同提示下使用OpenAI的GPT-2生成的文本示例。引自盛等人。(2019)论文“当保姆的女人:关于语言生成的偏见”(《当保姆的女人:论语言生成中的偏见》)。词嵌入模型ELMo和GPT-2都是在来自互联网的不同数据集上训练的。如上所述,网络上所代表的观点往往来自那些历史上处于强势地位并受到媒体更多关注的人。这些观点很可能是偏见问题的根源,因为模型已经内化了那些有偏见的观点。正如鲁哈·本杰明(RuhaBenjamin)在他的书《追逐科技》(RaceAfterTechnology)中所说:“向人工智能系统提供世界的美丽、丑陋和残酷,并期望它只反映美丽,这是一种幻觉。”这些NLP模型不仅复制了他们所训练的主导群体的观点,而且建立在这些模型上的技术加强了这些群体的主导地位。如上所述,目前只有一部分语言拥有开发有用的NLP技术(如机器翻译)的数据资源。但即使在这些丰富的语言中,如果口音不标准,机器翻译和语音识别等技术的表现也很差。例如,Koenecke等人。(2020)发现,亚马逊和谷歌等公司的语音识别软件对非裔美国人的错误率几乎是白人的两倍。这有点不便,因为GoogleAssistant或Alexa不能很好地与非标准口音的用户一起使用。它还会对一个人的生活产生重大影响,例如农民工难以与边境管理人员沟通。由于训练数据中表现出的偏差,这些应用程序预计比其他应用程序对具有数据“优势”的用户群体更有帮助。除了翻译和口译,一个流行的NLP使用场景是内容审核/管理。很难找到不包含至少一项垃圾邮件检测培训的NLP项目。但在现实世界中,内容审核意味着它决定什么类型的言论是“可接受的”。该研究发现,Facebook和Twitter的算法在审核内容时标记非裔美国用户内容的可能性是白人用户的两倍。一位非裔美国人的Facebook用户因引用电视剧《亲爱的白种人》中的台词而被暂停了她的帐户,而她的白人朋友却没有受到任何惩罚。从上面的例子我们可以看出,数据训练的表征不平衡导致了不平衡的后果。这些后果不成比例地落在历史上从新技术中受益较少的人群(即女性和有色人种)。因此,除非对NLP技术的开发和部署进行实质性的改变,否则它不仅不会给世界带来积极的变化,反而会加剧现有制度的不平等。3如何走上“正确”的轨道我在本文前面提到AI领域现在非常火热,这在历史上确实发生过一次。在20世纪50年代,工业界和政府对这项激动人心的新技术寄予厚望。但是,当实际应用开始达不到它的承诺时,人工智能的“冬天”就来了,该领域受到的关注和资金也越来越少。虽然现代社会受益于免费、广泛可用的数据集和强大的处理能力,但如果人工智能仍然只关注全球一小部分人口,就很难看到它如何在这场热潮中兑现承诺。承诺。对于NLP来说,这种对“包容性”的需求更为迫切,因为大多数应用只关注最流行的7种语言。为此,专家们开始呼吁更多地关注低资源语言。DeepMind的科学家塞巴斯蒂安·鲁德(SebastianRuder)在2020年发出呼吁,称“如果技术仅适用于具有标准口音的英语使用者,则技术无法普及”。计算语言学协会(ACL)最近还宣布了其2022年会议的“语言多样性”副主题。然而,包容性不应仅仅被视为一个数据收集问题。2006年,微软发布了使用智利土著马普切人语言的Windows。然而,这项工作是在没有马普切人参与或同意的情况下进行的,而马普切部落的人对微软的举措一点也不觉得“迁就”,因为微软在未经许可的情况下使用他们的语言,他们起诉了微软。解决NLP技术覆盖面的差距将需要更加关注代表性不足的群体。这些团体加入了NLP社区,并发起了他们自己的计划来扩展NLP技术的实用性。像这样的举措不仅可以让NLP技术应用于更多样化的数据集,还可以让各种语言的母语人士参与到技术的开发中。正如我之前提到的,目前用于确定什么是“最先进”NLP的指标可用于估计模型可能产生的错误量。然而,他们没有衡量这些错误是否在不同人群中分布不均(即是否存在偏差)。对此,麻省理工学院的研究人员发布了一个数据集StereSet,用于测量语言模型在多个维度上的偏差。这项工作的结果是一组衡量模型整体性能的指标,以及它与偏好刻板印象相关的倾向,它本身很容易成为一个“排行榜”框架。Drivennda在他们的Deon道德清单中提出了一种更加注重流程的方法。然而,我们仍然在应对一些一直困扰着技术的大问题:进步往往有利于强者,加剧现有的强弱“分化”。为了实现NLP技术的革命性进步,它需要变得更好,与今天不同。本德尔等。(2021)提出了一种更“价值??敏感”的设计,其中的研究旨在监测哪些观点被包括在内,哪些被排除在外,以及这种混合观点的风险收益计算。因此,“成功”不在于它有多准确,而在于技术能否促进和体现利益相关者的价值观。这是一个非常强烈的建议,但这意味着如果一项举措不太可能促进关键价值的进步,那么它可能不值得追求。保拉达等人。(2020)指出“仅仅因为可以学习映射并不意味着它有意义”。如上例所示,使用一种算法来确定罪犯是否有可能再次犯罪。该算法报告了高AUC分数,但是,它学到了什么?如上所述,模型是其训练数据的产物,因此它很可能会重现司法系统中已经存在的任何类型的偏见。这让人质疑这种特定算法的价值,并挑战决策算法的大规模使用。正如我们将看到的,对价值敏感的设计可以导致一种截然不同的方法。由于研究人员、开发人员和整个开源社区的努力,NLP最近取得了惊人的进展。从机器翻译到语音助手,再到COVID-19等病毒研究,NLP从根本上改变了我们使用的技术。但进一步的进展不仅需要整个NLP社区的工作,还需要跨职能小组和学科的工作。我们不应追逐指标的边际收益,而应关注真正的“变革性”变化,这意味着了解谁在“落后”并将他们的价值观纳入我们的研究。