当前位置: 首页 > 科技观察

机器学习公平性研究走在正确的道路上吗?

时间:2023-03-17 23:59:32 科技观察

机器学习公平性的研究真的走对了路吗?随着人工智能的发展,机器学习技术越来越多地应用于社会各个领域,帮助人们做出决策。影响力的潜力已经增加,特别是在影响力大的领域,例如刑事判决、利益评估、资源分配等。因此,可以说,从社会影响的角度来看,考虑机器学习系统在做出(高影响力)决策时是否会对弱势群体产生更不利的影响是非常重要的。那么如何评价一个机器学习系统的公平性呢?目前常用的方法是在一些静态的(特别强调的)数据集上运行待评估的系统,然后看误差指标。事实上,测试机器学习公平性的工具包有很多,比如AIF360、Fairlearn、Fairness-Indicators、Fairness-Comparison等。虽然这些工具包可以在一些任务中起到指导作用,但缺点也很明显:它们都针对静态的、没有反馈的、短期影响的场景。这反映在评估方法中,因为数据集是静态的。然而,大多数现实生活场景都是动态的并且有反馈。机器学习算法的背景往往对算法的决策具有长期的关键影响。因此,研究机器学习算法的公平性,从静态公平到动态公平,从单线公平到反馈公平,从短期公平到长期公平,是重要且必要的一步。近日,来自谷歌的几位研究人员在近日于西班牙举行的ACMFAT2020会议(计算机技术公平性国际会议)上发表了一篇关于这个问题的论文,并开发了一个小组模拟组件ML-fairness-gym,可以协助探索机器学习系统决策对社会的潜在动态长期影响。论文和代码链接:https://github.com/google/ml-fairness-gym1.从一个案例开始我们先从一个案例开始——贷款问题。这个问题是LydiaT.Liu等人于2018年由《Delayed Impact of Fair Machine Learning》提出的机器学习公平性的经典案例。在加州大学伯克利分校。他们使贷款流程高度简化和程式化,使我们能够专注于单一的反馈循环及其影响。在这个问题的程式化表述中,个人申请人偿还贷款的概率是他信用评分的函数。每个申请人属于一个组,每个组可以有任意数量的组成员。贷款银行会观察每个团队成员的贷款和还款能力。每个组从不同的信用评分分布开始,银行尝试确定可以跨组应用并针对每个组进行调整的信用评分阈值,以最好地让银行达到目标。信用评分高于阈值的申请人将获得贷款,而信用评分低于阈值的申请人将被拒绝贷款。当模拟系统选择一个申请人时,他们是否偿还贷款是根据他们所在组的还款概率随机确定的。在这种情况下,目前正在申请贷款的个人可能会在未来申请更多的贷款,因此他们可以偿还贷款以提高他们的信用评分和他们所在群体的平均信用评分。同样,如果申请人不偿还贷款,则该组的平均信用评分会更低。最有效的门槛设置取决于银行的目标。如果一家银行正在寻求最大化总利润,它可能会根据其对申请人偿还贷款的可能性的评估来设置一个最大化预期回报的阈值。如果不考虑其他因素,银行将努力使其总利润最大化。利润取决于银行从偿还贷款中赚取的金额与其从违约贷款中损失的金额之比。在上图中,这个盈亏比是1比-4。随着损失相对于收益变得更大,银行会更加保守地放贷并提高贷款门槛。超过这个阈值的部分在这里称为选择性。一些银行可能会寻求对所有群体都公平。所以他们试图设置一个平衡总利润最大化和机会均等的门槛,其中机会均等的目标是实现平等的真阳性率(TPR,也称为敏感度和召回率,衡量申请偿还贷款的人将获得贷款)。在这种情况下,银行应用机器学习技术,根据公布的贷款和收入情况确定最有效的阈值。然而,由于这些技术往往侧重于短期目标,它们可能会为不同的群体产生意想不到的和不公平的结果。前两个图:在100个模拟步骤中改变两组的信用评分分布。第2组最初的信用评分较低,因此被认为是脆弱的。下面两张图:左图是模拟过程中第一组和第二组的银行现金,右图是模拟过程中第一组和第二组的TPR。2.静态数据集分析的不足在机器学习领域,评估借贷等场景影响的标准方法是用一部分数据作为“测试集”,用这个测试集计算相关性能指标。然后通过观察重要群体中这些绩效指标的差异来评估公平性。然而,我们很清楚,在有反馈的系统中使用此类测试集存在两个主要问题:首先,如果测试集是由现有系统生成的,它们可能不完整或存在内在偏差。在贷款案例中,测试集可能是不完整的,因为它只包含有关已获得贷款的申请人是否偿还贷款的信息。因此,数据集可能不包括之前未获批贷款或未获得贷款的申请人。其次,机器学习系统的输出会影响其未来的输入。机器学习系统确定的阈值用于决定是否发放贷款。申请人是否偿还这笔贷款会影响他们未来的信用评分,这些评分也会反馈给机器学习系统。这些问题突出了使用静态数据集评估公平性的缺点,并促使研究人员分析算法在部署它们的动态系统中的公平性。3、长期分析的模拟工具:ML-fairness-gym基于以上需求,谷歌研究人员开发了ML-fairness-gym框架,可以帮助机器学习从业者将基于模拟的分析引入到他们的机器学习系统中。该组件已在多个领域被证明可有效分析难以执行封闭形式分析的动态系统。ML-fairness-gym使用OpenAI的Gym框架来模拟顺序决策。在此框架中,代理以循环方式与模拟环境交互。在每一步,智能体都会选择一个随后会影响环境状态的动作。然后,环境会揭示一个观察结果,代理会使用该观察结果来指导其下一步行动。在此框架中,环境对系统和问题的动态进行建模,并将观察结果用作代理的数据输入,可以将其视为机器学习系统。在贷款案例中,银行充当代理人。它通过从环境中观察来获取贷款申请人的信息以及他们的信用评分和组成员身份,并通过二元决策来执行接受或拒绝贷款的操作。然后,环境会对申请人是否已成功偿还贷款进行建模,并相应地调整申请人的信用评分。ML-fairness-gym可以模拟这些结果,以评估银行政策对所有申请人公平性的长期影响。4.公平不是一成不变的:将分析扩展到长期影响由于刘等人提出的原始公式。)和受制于平等机会(EO)的策略。使用ML-fairness-gym,研究人员能够通过模拟将分析扩展到长期影响。上图:申请人所属组的奖励最大化代理人和机会均等代理人的累计贷款,蓝色代表第1组,绿色代表第2组。底部:组平均信用评分(由每个组的条件还款概率量化))在模拟过程中。EqualOpportunityAgent提高了Group2的贷款批准率,但扩大了Group2和Group1之间的信用评分差距。基于对上述贷款问题的长期分析,Google研究人员得出两个发现:首先,正如Liu等人阿尔。得分较低)设置了比奖励最大化代理更低的阈值,给了他们比他们应该拥有的更多的贷款。这导致组2的信用评分比组1下降得更多,最终导致机会均等代理模拟的两组之间的信用评分差距大于奖励最大化代理模拟的信用评分差距。同时,他们在分析中还发现,虽然均等机会代理人的情况似乎让组2的情况变得更糟,但弱势群体2在累计贷款方面从均等机会代理人那里得到的贷款要多得多。贷款。因此,如果福利指标是获得的贷款总额,显然机会均等代理人对弱势群体(组2)更有利;但是,如果福利指标是信用评分,那么很明显,机会均等代理人会使弱势群体的信用评分越来越差。其次,机会均等约束(在每个步骤中对每个组强制实施相等的TPR)在模拟期间并未使TRP总体相等。这个可能违反直觉的结果可以看作是辛普森悖论的一个例子。辛普森悖论的一个例子。TP是真阳性分类,FN对应假阴性分类,TPR是真阳性率。在第1年和第2年,借款人实施了在两组之间实现平等TPR的政策。但是两年的TPR总和并没有达到相等的TPR。如上表所示,每两年TPR相等并不意味着整体TPR相等。它还表明,当基础人口不断发展时,机会均等指标可能难以解释,并且还表明需要进行更详细的分析以确保机器学习产生预期效果。以上内容只讨论了借贷问题,但根据谷歌研究人员的说法,ML-fairness-gym可以用来解决更广泛的公平问题。在论文中,作者还介绍了一些其他的应用场景,有兴趣的可以阅读论文原文。ML-fairness-gym框架也足够灵活,可以建模和探索未研究的“公平”问题。在他们的另一篇论文《Fair treatment allocations in social networks》(AssignmentofFairTreatmentinSocialNetworks)中,作者也研究了社交网络精准疾控问题中的公平问题。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。