很多研究发现,AI太不要脸了,竟然学会了性别歧视。这有什么问题吗?近日,清华复旦大学的一项研究对此提出了建议:如果想把AI从性别歧视的道路上拖回去,诅咒是无效的。最好的办法就是了解孩子为什么会这样,然后对症下药跟他讲道理。因为如果课程不合理,暴力纠正,AI会被吓傻(性能会下降)!哦,麦卡,养个四足吞金兽好难,养个(xun)个(lian)赛博小孩也这么难?来看看这群AI“奶爸奶妈”对孩子的培养建议。公平地说,人工智能可以减少性别歧视。在此之前,并不是没有人抓错了AI的耳朵,想让它改掉重男轻女的陋习。然而,大多数当前的去偏方法都会降低模型在其他任务上的性能。例如,如果你让AI少一些性别歧视,它就会有这个恼人的结果:它要么无法分辨“爸爸”的性别是男性还是女性,要么会犯语法错误而忘记了给第三人称后的动词+s。更可气的是,这种降解机制至今仍未被理解。要不就干脆放弃性别偏见明显的模式——2018年,亚马逊发现用于自动筛选简历的模式歧视女性求职者,于是将系统隐藏起来。否则,你只能遭受性能下降。难道说,如果我们要让AI不再是一个浮躁的AI、一个有问题的AI,AI就一定会失去理智吗?清华复旦的研究对此说了No。他们的研究领域是预训练语言模型。这是因为它在各种NLP任务中大显神通,实际场景非常多。当它带有性别偏见并用于在线广告,自动简历筛选系统,教育等社会工作时,它就不太好了。该研究提出了人工智能性别偏见起源的理论框架,一个因果框架,以解释数据不平衡如何导致模型在预训练期间存在性别偏见。他们将预训练模型在执行特定预测任务时的性别偏见定义如下:其中M为模型,Y为M要预测的词,B为M的性别偏见程度。Y0|W是基本事实,是男性相关词或女性相关词的概率是1/2,Y|W是M的预测。模型M在根据w预测Y0时存在性别偏见,如果M的预测Y是不平衡的,并且分布在不同性别之间。在预训练过程中,优化算法会根据预训练数据D确定embedding部分的参数和K。因此,数据不平衡D会误导模型得到不正确的参数。例如,如果训练数据中的“医生”一词更多地与男性词相关联,则该模型会自动将“医生”与“男性”相关联。看到这个三角形了吗,我们就用它来解释为什么现在的AI矫正方法会变傻。当应用预训练模型从W预测Y时,模型首先将W转换为提取的X,然后从X和K确定Y的平均值。由于潜水部分的误导参数,W被转换为不正确的X,K也不正确。一次操作后,错误的X和错误的K一起导致Y出现错误。这些错误及其相互作用通过三种潜在机制导致性别偏见。也就是说,此时,性别偏见就产生了。目前用于教育AI的去偏方法是如何工作的?目前所有的去偏方法都干预三种机制中的一种或两种。方法如下:加强对D的数据干预,同时干预三种机制。通过消除X在K中性别空间的几何投影,路径D→X→K→Y被切断。性别平等正则化方法要么扭曲了D和X之间的关系,要么扭曲了D和K之间的关系,因此此类方法干预了D→X→Y和D→X→K→Y的机制。在解释了当前去偏方法中的偏差-性能困境之后,该团队试图提出一种微调方法。他们发现,在这三种机制中,只有D→X→Y在导致性别偏见时与transformer无关。如果fine-tuning方法仅仅通过D→X→Y来修正bias,则可以在保持模型性能的同时减少性别bias。基于分解定理,团队进行了数值实验。事实证明,这种方法有双重好处:减少一些性别偏见,同时避免性能下降。经过实验,团队成员在预训练模型的两个架构中定位了AI性别偏见的来源:wordembedding和conversion。据此,研究团队提出了C4D方法,通过调整markerembeddings来减少性别偏见。该方法的核心思想是通过修正误导的X来缩小TDE函数,从而减少总偏差。尽管该团队不知道正确的标签嵌入应该是什么,但他们开发了一种基于梯度的方法来推断潜在的基本事实。一切准备就绪,团队将C4D方法应用于GPT-2测试的去偏结果。结果表明,在所有测试方法中,C4D方法在小型、中型和超大型GPT-2上的困惑度最低。在大型GPT-2中,C4D的perplexity排名第二,仅比最高分差0.4%。此外,得分最高的方法在消除性别歧视方面不如C4D有效。在GLUE数据集上,C4D方法的平均得分最高。这表明C4D可以显着减少性别偏见并保持模型性能。听了这么多理论介绍,我们来看一个图例,来个直观的感受。在下面的三张图中,蓝点代表潜在的男性偏见,红点代表女性偏见。图(a)是对AI的原始理解;图(b)是AI在无目的的虐待人类后被吓傻了的理解;图(c)是人类找到原因并耐心解释后对AI的理解。在面板(b)和(c)中,偏向男性和偏向女性的嵌入更加集中,这意味着偏向程度较低。同时可以注意到图(c)中的embedding仍然保持了图(a)??中的拓扑结构,这也是C4D方法能够保持模型性能的原因。研究人员:还可能减少AI中的其他偏见“虽然这种方法可以有效缓解AI在语言模型中的性别偏见,但仍不足以完全消除它。”——研究人员如实指出了这个问题。如果我们想在不降低AI性能的情况下进一步纠正AI的偏差,就需要更好地理解语言模型的机制。那么怎样才能更好的理解呢?一方面是利用本研究提出的“C4D方法”来检验AI中的其他偏差。本实验的主要研究对象是:职场性别偏见。其实因为AI之前一直在学习各种信息,属于不会拒绝任何人的那种。如此一来,一不小心,还会感染宗教歧视、不喜黑白等固有的社会问题。其他偏见。另一方面,您可以在各种大型模型上尝试“C4D方法”。除了本次研究使用的GPT-2,比如谷歌开发的NLP经典预训练模型BERT,也是一个很好的测试场景。但是如果要移植到其他模型,需要重新生成标定模板,可能需??要用到多元TDE(TemplateDrivenExtraction)功能。通过使用TDE功能,您可以将内容直接放入索引中,而无需修改文档结构。有网友抱着狗头过来了:一般来说,步入社会成为“失足AI”是必然的。但如果想让这个“跌跌撞撞的AI”浪子回头,找对方法,跟它讲道理,还是会有不错的效果的~另外,课题组成员之一清华大学于洋表示在他的个人微博上说这两天会有更多。一个关于AI模型的性别歧视查询网站将上线。可以期待一下!论文地址:https://arxiv.org/abs/2211.07350参考链接:https://weibo.com/1645372340/Mi4E43PUY#comment