当前位置: 首页 > 科技赋能

深度学习中的偏见和歧视问题不容忽视

时间:2024-05-22 14:48:13 科技赋能

当人工智能技术落地到各个行业时,深度学习作为人工智能技术的核心,已经逐渐渗透到各个方面。

计算机模拟或实现人类的学习行为,通过大量的数据和算法获取新的知识或技能,最终重组现有的知识结构,不断提高其性能。

然而,在人工智能领域,一直存在“黑匣子”问题。

深度网络具有预测能力高但可解释性不足的特点。

在利用大量数据“教授”机器学习的同时,研究人员发现机器学习也会产生不可预测的“偏差”。

当一些隐含的“有偏见”的数据被算法永久编码到人工智能程序中时,可能会导致未知的错误和偏见,从而可能在最终结果和决策中产生有影响甚至重大的错误,影响人类与人工智能关系的未来。

前段时间,谷歌取消了人工智能招聘计划,因为人工智能系统经过10年简历培训后,由于男性主导的工作环境,对“女性”产生了偏见,据报道,谷歌还批评了包含“女性”的候选人。

如果简历中含有某些女子学院的字样或名称,则会受到处罚。

这种机器学习带来的“偏差”问题与“俄罗斯坦克问题”类似。

20 世纪 80 年代,在机器学习的早期,美国军方试图训练计算机来区分俄罗斯和美国坦克的照片。

它的分类精度非常高,但是结果中俄罗斯坦克的所有照片都是模糊的,而美国坦克则是高清的。

事实证明,该算法最终没有学习识别坦克,而是学习如何区分模糊和清晰的照片。

造成这种偏差的主要原因如下: 1. 机器学习算法的数据不足。

算法会拾取最初提供的数据中的模式,然后识别新数据中的相似模式。

然而,有时算法并不按照人们最初预期的方式工作。

其次,算法本身很糟糕。

机器学习是软件开发人员使用大量与任务相关的数据来训练人工智能算法的过程。

如果算法本身存在漏洞,深度学习后的结果会更不理想。

您可以尝试以下一些方法来消除机器学习中潜在的“偏见歧视”问题。

减少原始数据的“偏见” 2019 年 5 月 25 日,《通用数据保护条例》(GDPR) 在整个欧盟生效,要求组织对个人数据处理方式进行彻底改变。

如果违反GDPR法规的限制,相关组织必须缴纳最高1万欧元或其全球收入4%的罚款(以较高者为准),这对于威慑大多数违规行为具有重要意义。

但事实上,尽管有GDPR等法规限制数据的使用,但一些研究无法避免使用有偏见的数据集。

由于机器学习系统的行为是由它所学习的数据驱动的,因此它的工作方式与人们编写的标准计算机程序非常不同。

如果用于训练算法的数据不能公平地覆盖正在研究的主题,系统就会产生偏差,甚至放大原始数据的偏差。

然而,这个问题并不在于数据本身的数学结构,而在于深度学习系统的设计者和运营者。

解决数据偏差问题,需要数据采集、存储、使用的公平性和全面性。

打开算法“黑匣子” 长期以来,不少企业出于专利保护和商业秘密的考虑,对自己的人工智能算法严格保密,从未出现过决策无法解释的“黑匣子”问题。

值得庆幸的是,人工智能领域现在已经意识到了这个问题,正在积极采取措施,加快代码开源、制定透明度标准、提高算法的可靠性。

此外,还需要倡导“程序员必须用算法得出的结论做他们想做的事”。

提供解释,否则不会投入使用”的原则。

对此,人们也做出了相应的举动。

例如,美国国防高级研究计划局资助了一个名为XAI(可解释人工智能)的计划,旨在打开人工智能的“黑匣子”,保证用户更好地控制人工智能程序,让机器发现自己的错误,人工智能系统在学习的过程中也会犯错误。

计算机只能从你提供的数据中学习,但有时,你无法消除数据中的偏差来源,就像你无法消除人类的偏差来源一样,所以首先要承认问题,然后让机器发现错误。

华盛顿大学的研究人员于 2016 年开发了一种名为 LIME 的解释技术,并在 Google 构建的图像分类神经网络 Inception Network 上进行了测试。

当 LIME 做出图像分类决策时,它不会考虑哪个神经元。

神经网络被触发,而是在图像本身中搜索解释。

它使原始图像的不同部分变暗,并通过 Inception 将生成的“扰动”图像反馈回来,以检查哪些扰动导致结果偏离算法最远。

通过考虑机器学习模型中的错误,可以改进技术以消除人为偏见。

深度学习中的“偏见和歧视”问题正在潜移默化地影响算法结果。

研究人员需要时刻关注,反复检测算法结果与预期的偏差。

任何差距都可能通过蝴蝶效应,最终发展成一个重要的错误。

在人工智能兴起的时代,当人们越来越关注人工智能与人类社会的关系时,这将是一个时刻备受关注的敏感点。