在人工智能(AI)和机器学习(ML)领域,在决策过程中涉及预测模型越来越普遍,但难点在于决策者需要确保这些模型不会根据模型预测做出有偏见或不公平的决策(有意或无意的歧视)。想象一下银行、保险和就业等行业使用模型作为确定面试候选人、批准贷款/信贷、评估保险费等的解决方案。如果最终决定有偏见,它会对最终用户造成多大的伤害?因此,了解模型预测偏差的不同细微差别对于处理ML问题的产品经理、业务分析师和数据科学家来说至关重要。什么是ML模型中的公平性和偏差机器学习模型中的偏差是由于缺乏足够的特征以及用于训练模型的相关数据集不完整造成的。鉴于用于训练模型的特征和相关数据是由人类设计和收集的,数据科学家和产品经理的偏见会影响训练模型的数据准备。例如:在收集数据特征的过程中,缺失了一个或多个特征,或者用于训练的数据集覆盖度不够。换句话说,该模型可能无法正确捕获数据集中存在的潜在规则,并且由此产生的机器学习模型最终会出现偏差(高偏差)。机器学习模型偏差可以通过多种方式进一步理解:缺乏适当的特征会引入偏差。这样的模型欠拟合,即模型表现出高偏差和低方差。 缺乏合适的数据集:虽然特征足够,但缺乏合适的数据也会导致偏差。大量不同性质(涵盖不同场景)的数据可以解决偏差问题。但是,必须注意避免方差过大,这会影响模型性能,因为模型无法泛化到所有类型的数据集。如果发现一个模型有很高的偏差,它就会被称为不公平,反之亦然。请注意,尝试减少偏差可能会导致具有高方差的高度复杂的模型。下图表示模型在偏差和方差方面的复杂性。注意:随着偏差减小和模型变得更加复杂,可能会出现高方差。 如何测试ML模型的公平性/偏见要测试ML模型是公平还是有偏见,您首先需要了解模型的偏见程度。一种常见的方法是确定输入值(相对于特征)对模型预测/输出的相对重要性。确定输入值的相对重要性将有助于防止模型过度依赖讨论部分的受保护属性(年龄、性别、肤色、教育程度等)。其他技术包括审计数据分析、ML建模管道等。为了确定模型偏差和相关的公平性,可以使用以下框架:种族 性别 肤色 宗教 国籍 婚姻状况 性取向 教育背景 收入来源 年龄考虑相关数据针对以上特征可能存在的偏差,我们要采用合适的策略来训练和测试模型及相关性能。银行业AI偏见示例:由于系统中引入的模型,有效的贷款申请人因其训练数据(如性别、教育、种族、位置等)存在偏见而被拒绝贷款请求。或获批贷款的申请人不符合审批条件。保险:一个人需要支付高昂的保险费,因为预测模型数据集没有涵盖所有的特征。就业:有偏见的机器学习模型错误地根据候选人的种族、肤色等属性筛选简历,导致合格的候选人被筛选掉,导致企业错失聘用优秀候选人的机会。住房:在住房领域,由于位置、社区、地理等相关数据,在引入过程中可能存在偏差,导致模型出现高偏差,对房价做出错误预测,最终导致业主和客户(买家)失去交易机会。Fraud(Criminal/Terrorist):由于训练模型对种族、宗教、国籍等特征的偏见,将一个没有犯罪的人归类为潜在的罪犯并进行审问。例如,在一些国家或地区,某个宗教人物被怀疑是恐怖组织。目前,这已成为模型中反映的个人偏见的一部分。政府:假设政府为某一特定人群制定政策,机器学习负责对这些计划中的受益人群进行分类。模型偏差可能导致本应享受相关政策的人没有享受政策,而没有资格享受相关政策的人成为政策受益人。教育:假设学生的入学申请因用于训练模型的数据集不完整而导致底层机器学习模型存在偏差而被拒绝。金融:在金融行业,使用有偏见的数据建立的模型可能会导致申请人的贷款请求被误批,违反《平等信贷机会法》。而且,在错批后,用户会对最终结果提出质疑,并要求公司说明不批的原因。1974年,法律规定金融信贷不得因种族、肤色、宗教、性别等属性而歧视任何个人或组织。在模型构建过程中,产品经理(业务分析师)和数据科学家需要尽可能地考虑所有可能出现的情况,以确保用于构建模型(训练或测试)的数据具有普遍性和准确性,一个无意的细节可能会导致偏见。总结通过阅读本文,您了解了机器学习模型偏差、偏差相关的属性和特征,以及不同行业中模型偏差的示例。出现偏差的原因可能是产品经理或数据科学家在研究机器学习问题时,没有充分总结用于模型训练的数据特征、属性和数据集,导致机器学习模型无法捕捉到重要的特征和覆盖所有类型的数据。训练模型。具有高偏差的机器学习模型会导致利益相关者做出不公平/有偏见的决策,这会严重影响整个交易过程甚至最终客户的利益。
