当前位置: 首页 > 科技观察

在预训练的NLP模型上测量性别相关性

时间:2023-03-14 16:34:17 科技观察

在过去的几年里,自然语言处理(NLP)取得了长足的进步,BERT、ALBERT、ELECTRA和XLNet等预训练语言模型在各种任务中都表现出色,都取得了很高的准确性.预训练语言模型使用维基百科等大型文本语料库作为训练集,通过masking一些词并预测来学习embeddingrepresentations,即maskedlanguagemodeling。实验结果表明,通过这种方式,可以对不同概念(如外科医生和手术刀)之间的丰富语义信息进行编码。训练完成后,模型经过fine-tuning可以适配特定任务的训练数据,通过pre-trainingembedding实现分类等特定任务。鉴于这种预训练表征广泛应用于不同的NLP任务,作为从业者,我们需要了解预训练模型是如何编码信息的,它学到了哪些相关性,以及这些将如何影响下游应用程序的性能,以免偏离我们的AI原则。在“MeasuringandReducingGenderedCorrelationsinPre-trainedModels”中,我们对BERT和简化版的ALBERT进行了案例研究,讨论了性别相关性,为预训练语言模型的实际应用提供参考。我们在学术任务数据集上进行实验,并将结果与??一些常用模型进行比较,以验证模型的实用性,为进一步研究提供参考。我们稍后会发布一系列检查点,以便在保持NLP任务准确性的同时减少性别相关性。相关性措施为了了解预训练表征中的相关性如何影响下游任务,可以使用各种评估指标来研究性别表征。在这里,我们讨论使用共指消解的测试结果,这种方法旨在使模型能够理解句子中给定代词的正确先行词,例如模型识别出他指的是护士而不是患者的句子。OntoNotes(Hovyetal.,2006)是最常用的标准验证数据集,而F1分数用于衡量模型在共指消解方面的准确性(Tenneyetal.,2019)。由于OntoNotes仅代表一种数据分布,我们还使用WinoGender基准测试,它提供了一些额外的数据,通过这些数据可以判断性别和职业何时产生错误的共指消解。WinoGender得分较高(接近1),表明该模型正在根据性别和职业之间的关联做出决策(例如将护士与女性而非男性相关联);当性别和职业之间没有一致的关联(得分为零)时,此时模型决策基于其他信息,例如句子结构或语义。BERT和ALBERT在OntoNotes(准确性)和WinoGender(性别关联)上的表现。较低的WinoGender值表示模型在推理时不太关注性别信息。研究发现,BERT和ALBERT在WinoGender上都没有得分为零,而在OntoNotes上却达到了极高的准确率(接近100%)。实验表明,在某些情况下,该模型在其推理决策中考虑了性别相关性。这符合我们的预期,模型可以使用多个线索来理解文本,并且可以只使用其中一个或选择所有线索。当然,我们在实际应用中还是要谨慎,不能指望模型根据先验的性别相关性做出预测。其他可用信息对于预测也非常重要。实用指南鉴于预训练模型嵌入中的隐式相关性有可能影响下游任务,在开发新的NLP模型时,我们需要考虑可以采取哪些措施来减轻这种风险?隐式相关性的度量非常重要:虽然可以使用准确性度量来评估模型质量,但此类度量仅从单一角度评估模型,当测试数据和训练数据分布相同时尤其无效。例如,BERT和ALBERT检查点的准确率相差在1%以内,但在使用性别相关性进行共指消解时,相对偏差为26%。这意味着,对于某些任务,这种差异尤为重要。在处理一些反固定思维的文本(比如男护士)时,选择WinoGender分数较低的模型更为合理。更改任何模型配置时要小心,即使它看起来微不足道:神经网络模型训练由许多超参数控制,通常选择这些超参数以最大化训练目标。尽管某些参数选择似乎对模型没有影响,但我们发现它们可以导致性别相关性发生显着变化。例如,Dropout正则化用于避免模型过拟合。当我们在BERT和ALBERT训练过程中增加Dropout参数时,即使进行微调,性别相关性仍然会显着降低。这意味着微小的配置更改会影响训练模型,降低相关风险,但这也表明我们在对模型配置进行任何更改时应谨慎行事并仔细评估。在BERT和ALBERT训练过程中,增加Dropout参数对相关性的影响得到缓解:上一篇文章介绍了Dropout对性别相关性的影响。基于此,我们进一步推断可以通过这种方式减少额外的相关性:通过增加dropout参数,我们可以改进模型推断WinoGender的方式,而无需手动指定任何内容,甚至无需更改微调阶段。然而,随着dropout的增加,OneNotes的准确率也开始下降(参见BERT结果),但我们认为这可以在预训练阶段避免,通过改变dropout而不是针对特定任务更新它来改进模型.在本文中,我们提出了另一种基于反事实数据增强的不同权重缓解策略。展望未来我们相信这些实用指南为开发健壮的NLP系统提供了参考,使其适用于更广泛的语言和应用程序。当然,由于技术本身的不足,很难捕捉并消除所有潜在的问题。因此,任何部署在真实环境中的模型都应该经过严格的测试,即尝试不同的方法,并通过一些保障措施来确保道德合规,比如谷歌的AI原则。我们期待评估框架和数据的进一步发展,使语言模型能够应用于各种任务,为更多人提供优质服务。致谢本文的合作者包括XuezhiWang、IanTenney、ElliePavlick、AlexBeutel、JilinChen、EmilyPitler和SlavPetrov。还要感谢FernandoPereira、EdChi、DipanjanDas、VeraAxelrod、JacobEisenstein、TulseeDoshi和JamesWexler等人。