当前位置: 首页 > 科技观察

最优交通及其在公平中的应用

时间:2023-03-20 20:18:21 科技观察

译者|李锐审稿人|孙淑娟最优交通起源于经济学,现在正在发展成为一种如何最好地配置资源的工具。最佳运输理论的起源可以追溯到1781年,当时法国科学家加斯帕德芒格开发了一种据称可以“移动地球”并为拿破仑军队建造防御工事的方法。一般来说,最优运输是指如何将所有资源(如铁矿石)从一组起点(矿山)移动到一组目的地(钢厂),同时最小化资源必须移动的总距离的问题。从数学上讲,研究人员希望找到一个函数,将每个起点映射到一个目的地,同时最小化起点与其对应目的地之间的总距离。尽管描述无伤大雅,但该问题的最初表述(称为芒格表述)的进展停滞了近200年。在1940年代,苏联数学家列昂尼德·坎托罗维奇将问题的表述改编成现代版本,现在被称为蒙日·坎托罗夫理论,迈出了解决问题的第一步。这里的新颖之处在于允许将来自同一矿山的一些铁矿石供应给不同的钢厂。例如,一个矿山60%的铁矿石可以供应给一家钢厂,而该矿山剩余40%的铁矿石可以供应给另一家钢厂。从数学上讲,这不再是一个函数,因为同一个起点现在可能映射到多个目的地。相反,这被称为起点分布和终点分布之间的耦合,如下图所示;从蓝色分布(原点)中选择一个矿山并沿图表垂直移动显示钢厂分布(目的地)。作为这一新发展的一部分,Kantorivich引入了一个重要的概念,称为Wasserstein距离。类似于地图上两点之间的距离,Wasserstein距离(也称为推土机距离,受其原始场景启发)测量两个分布之间的距离,例如本例中的蓝色和品红色分布。如果所有的铁矿都远离所有的铁厂,那么矿山分布(位置)和钢厂分布之间的Wasserstein距离就会很大。即使有了这些新的改进,仍然不清楚是否真的有一种最好的铁矿石资源运输方式,更不用说采用哪种方式了。最后,在20世纪90年代,由于数学分析和优化的改进部分解决了问题,该理论开始迅速发展。进入21世纪,最优传输开始扩展到其他领域,例如粒子物理学、流体动力学,甚至统计学和机器学习。现代的最优交通随着新理论的爆炸式增长,最优交通在过去二十年中一直是许多新统计和人工智能算法的核心。在几乎每个统计算法中,数据都被明确??或隐含地建模为具有某种潜在的概率分布。例如,如果您收集不同国家个人收入的数据,每个国家的人口收入都有一个概率分布。如果你想根据人口的收入分布来比较两个国家,你需要一种方法来衡量两个分布之间的差距。这正是优化传输(尤其是Wasserstein距离)在数据科学中变得如此有用的原因。然而,Wasserstein距离并不是衡量两个概率分布之间距离的唯一方法。事实上,L-2距离和Kullback-Leibler(KL)散度这两个选择在历史上更为常见,因为它们与物理学和信息论有关。Wasserstein距离相对于这些替代方案的主要优势在于它在计算距离时同时考虑了值及其概率,而L-2距离和KL散度仅考虑概率。下图显示了三个虚构国家的收入人工数据集示例。在这种情况下,由于分布不重叠,蓝色和品红色分布之间的L-2距离(或KL散度)将与蓝色和绿色分布之间的L-2距离大致相同。另一方面,蓝色和品红色分布之间的Wasserstein距离将远小于蓝色和绿色分布之间的Wasserstein距离,因为值之间存在显着差异(水平分离)。Wasserstein距离的这一特性使其非常适合量化分布之间的差异,尤其是数据集之间的差异。最佳运输的公平性随着每天收集大量数据,机器学习在许多行业变得越来越普遍,数据科学家必须越来越小心,不要让他们的分析和算法使数据中现有的偏见和偏见永久化。偏差是永久性的。例如,如果房屋抵押贷款审批数据集包含有关申请人种族的信息,但由于使用的方法或无意识的偏见,少数族裔在收集过程中受到歧视,那么基于该数据训练的模型将在一定程度上反映潜在的偏差.优化交通可以通过两种方式帮助减轻这种偏见并提高公平性。第一种也是最简单的方法是使用Wasserstein距离来确定数据集中是否存在潜在偏差。例如,可以估计批准给女性的贷款金额分布与批准给男性的贷款金额分布之间的Wasserstein距离,如果Wasserstein距离非常大,即具有统计显着性,则可能会怀疑存在潜在偏差。这种检验两组之间是否存在差异的思想在统计学上被称为双样本假设检验。或者,当基础数据集本身存在偏差时,最优传输甚至可以用于在模型中强制执行公平性。从实际的角度来看,这非常有用,因为许多真实的数据集都表现出一定程度的偏差,而收集无偏差的数据可能非常昂贵、耗时或不可行。因此,更实际的做法是使用可用的数据,无论多么不完美,并尽量确保模型减轻这种偏差。这是通过在模型中强制执行称为强人口统计均等性的约束来实现的,该约束强制模型预测在统计上独立于任何敏感属性。一种方法是将模型预测的分布映射到不依赖于敏感属性的调整预测的分布。然而,调整预测也会改变模型的性能和准确性,因此在模型性能和模型对敏感属性(即公平性)的依赖程度之间存在权衡。通过尽可能少地更改预测以确保最佳模型性能,同时仍然保持新预测独立于敏感属性来实现最佳运输。调整后的模型预测的这种新分布被称为Wasserstein重心,在过去十年中一直是许多研究的主题。Wasserstein质心类似于概率分布的均值,因为它最小化了从自身到所有其他分布的总距离。下图显示了三种分布(绿色、蓝色和洋红色)及其Wasserstein质心(红色)。在上面的示例中,假设建立了一个模型来根据包含敏感属性(例如婚姻状况)的数据集来预测某人的年龄和收入,该数据集可以采用三个可能的值:单身(蓝色)、已婚(绿色)和丧偶/离婚(洋红色)。散点图显示了每个不同值的模型预测分布。但希望调整这些值,使新模型的预测对一个人的婚姻状况视而不见,可以使用最佳运输将这些分布中的每一个映射到红色的重心。因为所有的值都映射到同一个分布,所以不能再根据收入和年龄来判断一个人的婚姻状况,反之亦然。重心尽可能保持模型的保真度。商业和政府决策中使用的数据和机器学习模型越来越普遍,这引发了新的社会和伦理问题,即如何确保这些模型的公平应用。由于它们收集方式的性质,许多数据集包含某种偏见,因此重要的是,基于它们训练的模型不会加剧这种偏见或任何历史歧视。优化运输只是解决这个问题的一种方法,近年来这个问题一直在加剧。今天,有快速有效的方法来计算最佳运输地图和距离,使这种方法适用于现代大型数据集。随着人们越来越依赖基于数据的模型和洞察力,公平已经并将继续成为数据科学的核心问题,而最佳交通将在实现这一目标中发挥关键作用。原标题:OptimalTransportanditsApplicationstoFairness,作者:TerrenceAlsup