当前位置: 首页 > 科技观察

提出AI消除性别偏见的新方法,适用于任何模型

时间:2023-03-20 16:12:45 科技观察

陈丹琪的新论文来了!研究团队都是女性,这是她在普林斯顿的第一篇全女性作者论文。论文题目也与妇女问题有关。该论文提出了MABEL,这是一种使用合格标签来减少AI中性别偏见的方法。通过这种方法,团队证明了如果在上游预训练中纠正性别偏见可以直接影响下游任务。它适用于任何模型。目前论文已被EMNLP2022录用,项目已开源。使用这种方法的BERT-base和BERT-large模型也可以在HuggingFace上找到,即插即用。陈丹琪团队的新方法MABELusinglimitedlabelstoreducebias是一种MethodforAttenuatingGenderBiasusingEntailmentLabels。MABEL消除了taskagnostic情况下的bias,换句话说,这个方法适用于任何模型。此前,适用于这种情况的去偏方法是比较流行的SEAT(SentenceEncoderAssociationTest),但后来相关研究证明,其内部指标衡量的结果与外部指标没有直接关联。也就是说,一个在使用SEAT方法的偏差消除测试中得分很高的模型在实际执行任务时仍然没有达到预期。此次,研究团队吸取了西雅特的经验,着眼于内部指标和外部指标。而且,据该团队称,MABEL也是第一个使用来自受监督句子对的语义信号来消除偏见的公司。那么它究竟是如何从模型中消除性别偏见的呢?简而言之,MABEL通过对预训练数据库中所有具有敏感属性的词进行反义替换,其他词不变,再进行对比学习来消除偏差。具体来说,研究团队做了两件事。首先,在数据集方面,研究团队使用了自然语言推理(NaturalLanguageInference,NLI)数据集,该数据集在训练有判别力和高质量的句子表征方面特别有效。由于研究团队专注于性别歧视方向的偏见,他们从NLI数据集中提取了前提或假设中包含性别术语的所有隐式对。然后对数据进行反事实增强,即将数据集中所有的性别敏感词都替换成反义词,比如boy→girls……接下来更关键的一步:训练!训练主要针对以下三个损失函数:第一个是基于隐式对比损失(Entailment-basedcontrastiveloss),更像SimCSE。△SimCSE△Entailment-basedcontrastiveloss这个contrastiveloss是比较两个意思相近的句子,让两个句子的隐式对有更强的相关性,进而让编码器学习到更丰富的语义关联。其次是对齐损失(Alignmentloss),比较容易理解。它用于表示原始隐式对及其增强对之间的内部关联。也就是说,这个函数可以让模型的最终结果在男女两性上更加平衡,从而保证模型最终结果的性别歧视降到最低。第三种是掩码语言建模损失(Maskedlanguagemodelingloss),这是在最后为了保持模型的语言建模能力而额外增加的损失。研究团队随机屏蔽了所有句子中15%的标记。通过利用周围的上下文来预测原始术语,编码器有动力保留令牌级别的知识。最终的损失函数如下:说了这么多,MABEL的biaselimination的方法效果如何呢?研究团队直接做了一个直观的柱状图来展示这种方法在消除性别歧视方面的效果。在五个指标中,包括两个内部指标(左侧两个)和三个外部指标,MABEL表现出良好的公平性能权衡。此外,研究团队还评估了语言模型在使用消除性别歧视的方法后是否仍然保持了一般语言理解,结果表明该模型在GLUE上能够很好地保留其自然语言理解(NLU)能力。陈丹琪带队,女选手全部排在最后。让我们来看看研究团队的阵容。清华耀斑校友陈丹琪是近年来计算机领域最受关注的青年学者之一。目前是普林斯顿大学助理教授,NLP组联席组长,AIML组成员。此前,她凭借在信息学竞赛圈的传奇经历而备受关注——CDQ分而治之算法就是以她的名字命名的。2008年代表中国队获得IOI金牌。她长达156页的博士论文《Neural Reading Comprehension and Beyond》也走红了。不仅获得了当年斯坦福大学的最佳博士论文奖,还成为斯坦福大学近十年来最受欢迎的毕业论文之一。今年2月,陈丹琪因其在NLP领域的成就和潜力获得了被誉为“诺贝尔奖风向标”的斯隆研究奖。纸一号饰演JacquelineHe。她是今年刚毕业的普林斯顿计算机科学本科毕业生,目前在Meta工作。陈丹琪说,Jacqueline也在申请博士。队伍中还有陈丹琪的学生孟舟霞。她现在是普林斯顿计算机科学专业的博士生。毕业于复旦大学,赴卡耐基梅隆大学攻读研究生。研究兴趣领域是大规模预训练模型的性能和效率。此外,课题组中还有一位72岁的女学者。她是普林斯顿大学语言学与计算机科学系的教授ChristianeD.Fellbaum。研究领域包括自然语言处理、词汇语义学、计算语言学、文本语料库等,联合开发了WordNet。这是一本基于认知语言学的英语词典,根据词义形成一个“词网”。论文地址:https://arxiv.org/abs/2210.14975参考链接:[1]https://twitter.com/danqi_chen/status/1599828154839093248?[2]https://www.cs.princeton.edu/~丹旗/