当前位置: 首页 > 网络应用技术

确定决策的公平性的重要性 - 制定AI模型

时间:2023-03-08 11:58:55 网络应用技术

  形成公平是有问题的任务的问题。该定义在很大程度上取决于上下文和文化。当涉及算法时,每个问题都是唯一的,因此将通过使用唯一的数据集来解决。Algorithm公平性可以源自手部问题的统计和数学定义,甚至是法律定义。基于出于相同目的的不同公平定义,它们将产生完全不同的结果。

  公平的测量标准也随着每种情况的变化。我将进行以下尝试:如果算法对个人没有不公平的结果,那是公平的或代表的。

  即使有上述定义,很明显,在每种情况下,为每个人或小组创建100%公平模型都是一项艰巨的任务。我们可以希望的是,我们可以基于公平建立它,以便我们可以待在个人和团体中解释结果。

  但是,个人公平和群体公平存在不同的问题。

  个人公平的重点是确保相似个体的统计数据是相同或相似的。简单地说,如果您在许多方面,即相同的年龄,收入大致相同,则生活在同一地区,我们申请贷款,然后我们应该有类似的结果。

  该小组的公平性将人口分为一个基于敏感或受保护的属性(例如种族,种族和性别)的预定义群体,并努力确保结果的统计测量标准在每个组之间相等。如果我们看一个由性别划分的群体,则应对整个小组做出类似的决定。不支持性别。

  关于如何在制定决策模型时如何实现公平性,有两个世界观。第一个是“我们是平等”(WAE)的观点。它指出该组具有相同的能力,因此结果的差异可以归因于结构偏见,而不是能力差异。第二种是“ Wysiwyg”方法,它认为观察结果反映了该组的能力。

  在金融领域,一个容易理解的例子是FICO分数。WaeWorld View指出,不同人的不同FICO分数不应误认为无法偿还抵押贷款的不同情况。WysiwygWorldview指出,FICO分数和公平比较申请人偿还抵押贷款的能力非常相关。

  偏见通常在我们周围。我们几乎可以在现代生活的各个方面看到它。Fast搜索算法和Google的偏见会发现数百个示例,其中该模型在发布前没有进行公平测试。

  我们已经看到,保险公司使用机器学习来歧视老年人,在线定价歧视,甚至是个性化产品来指导少数群体以获得更高的费率。此类错误的成本是严重的声誉丧失,客户的信任不能被恢复。

  这是一些经历过算法偏见的人:

  关键是客户知道算法何时发生是不公平的。如果我们想启动影响客户和客户生活的贷款模型,我们需要确保我们测试他们的公平性。不公平算法的决定也可以随着培训数据而传播,我们的模型再次学习和进化。反馈周期可能导致偏见数据的恶性循环。

  为了解释偏见如何渗透到该算法中,我采用了一些开放的家庭抵押贷款披露法案(HMDA)数据,该数据要求贷款报告抵押申请人的种族,种族,性别和总收入,以及一个受欢迎的收入POURITITYADULT收入数据集并建立了一些初步的机器学习模型。我忽略了敏感属性,以确保我拥有平衡的数据,创建一些出色的功能并获得一些很好的性能。如果绩效是成功成功的唯一标准,我将说我做得很好,但是我已经对公平进行了一些检查。

  有了HMDA数据,我检查了游戏如何影响结果,结果令人不安。在下图中,我们可以看到在给定种族下接收贷款的可能性。查看右橙色区域和蓝色区域之间的差异是的,我们可以清楚地看到,白人客户的可能性比非白人客户的预测分布要高得多。如果这是公平的,我们应该看到线路正在接近,或者是理想的重叠。

  显然,如果该算法在现实世界中生产和使用,它可能会对非白人客户产生严重后果。消除进入市场的这种模型的可能性必须是跨行业组织的关键推动力。,保险或医疗保健,人工智能可以成为改善业务和经营业绩的强大盟友,但这一定不能以偏见的团体或个人为代价。

  客户会记住,他们感到不公平,尤其是当决策的影响对他们的福祉产生重大影响时。作为数据科学家,我们必须开始通过我们所做的任何工作来实施公平性。