当前位置: 首页 > 科技观察

人工智能延续人类文化,人工智能继承人类偏见

时间:2023-03-12 12:18:44 科技观察

科技是人类文化的延伸。科技在延伸人类智慧的同时,也继承了人们的偏见和歧视。当前,人工智能作为第四次工业革命的代表技术,正在迅速改变我们所认识的世界。但与此同时,在现实世界中,由人创造并从人类数据中学习的人工智能往往会表现出与人类相似的偏见,无论是招聘中的性别歧视,还是人脸识别中的种族误解。被判刑。歧视的发生不仅反映了社会中已经存在的性别刻板印象和偏见,而且,在设计和营销决策过程中,人工智能会进一步放大这些偏见。在科技能量越来越大的时代,思考和解决这些歧视的发生变得越来越重要。人工智能偏见是人类意志的产物。与随机混沌和自然选择的进化过程不同,人工智能是人类意志的产物,是为达到一定目的而形成的。人工智能作为一种技术,虽然包含客观结构,但人工智能也服务于人类理性活动的目的。也就是说,任何人工智能算法在诞生之前就已经概念化,在发展过程中必然伴随着开发者的意志。然而,从开发人员的角度来看,美国劳工统计局显示,虽然女性占劳动力的59%,但技术人员通常只占员工的20-30%。在与程序开发相关的工作中,网站开发是女性比例最高的职业,但不到40%。据估计,截至2018年,仅美国就有140万个计算机相关工作岗位,其中只有29%由女性担任。人工智能的发展也自然继承了该行业的性别失衡。没有足够的女性样本参与,这使得人工智能的知识不可避免地存在漏洞,这就是为什么会出现偏差错误。研究人工智能对社会影响的研究机构AINow的研究表明,男性主导的人工智能行业与其生产的歧视性系统和产品之间存在明显联系。例如,在机器学习领域,偏差的来源包括不完整或有偏差的训练数据集、训练模型的人工标签和偏差,以及算法和技术的缺陷。当训练数据中缺少某个统计类别时,AI学习模型无法正确测量这部分特征。如果训练数据中男性比例过低,则算法模型应用于男性时会出现较大误差;如果训练数据中关于“医生”的照片大部分是女性,那么在搜索“医生”的图片时,算法会放大女性出现的概率。因此,当技术从业者的性别失衡进一步体现在有偏见的训练数据集中时,性别歧视就出现了。自然语言处理(NLP)是亚马逊Alexa和苹果Siri等常见人工智能系统的核心,它存在性别偏见,而人工智能的性别偏见词嵌入就像文字联想游戏。除其他事项外,这些系统通常将“男人”与“医生”相关联,将“女人”与“护士”相关联。这是不完整和不充分的训练样本的典型代表。从训练模型中的人为标签和偏差来看,绝大多数商业人工智能系统都采用有监督的机器学习,因此需要对训练数据进行人工标注。在这个过程中,难免会有人为的偏见有意无意地编码到算法模型中。如果人们在设置标签时将“胖与瘦”与“美”联系起来,算法自然会继承这种偏见。同时,这些偏见又进一步隐藏在算法和技术的缺陷之下。当算法与每个人的生活息息相关时,算法以一种无人能理解的方式在黑盒子中运行。“算法黑匣子”带来的一定技术壁垒,使得人工智能深度学习中难以识别是程序错误还是算法歧视。因此,偏见是无法解释的。此外,也正是因为科技行业的女性比例偏低,难以打破科技行业普遍存在的性别偏见,人工智能产品所体现的“女性观”无法得到纠正。这种将女性物化并强化性别刻板印象的趋势进一步削弱了女性进入科技世界的意愿。从开发到应用,性别歧视就这样恶性循环存在,随时都可能发生。及时纠正偏差,重构技术公平目前,偏见、歧视、错误是人工智能进步的必由之路。前提是人们在意识到偏见存在的情况下能够做出改变,及时纠正偏差。显然,人工智能算法是由人类开发并由人类使用的。开发者的价值观和偏见会对算法产生很大的影响。这也是社会需要更多女性研究人员参与人工智能设计,甚至将女性用户的需求和尊重性别平等的理念融入人工智能系统的重要原因。从技术发展的过程来看,不公平的数据集是偏见的土壤——如果用来训练机器学习算法的数据集不能代表客观现实,那么这种算法的应用结果往往会偏向于特定的群体。歧视和偏见。事实上,算法存在的前提是数据信息,算法的本质是对数据信息的获取、拥有和处理,并在此基础上产生新的数据和信息。简而言之,算法就是数据信息或所有获得的知识的转化和再现。由于算法的“技术逻辑”是从结构化的事实和规则中“推导出”可重复的新事实和规则,长期以来人们一直认为这种脱胎于大数据技术的算法技术本身并不重要无论是好是坏,在伦理判断层面都是中性的。但随着人工智能的第三次热潮,产业化、社会化应用创新不断加速,数据量级不断增加。人们逐渐意识到算法所依赖的大数据并不是中立的。它们取材于现实社会,不可避免地带有社会固有的不平等、排斥和歧视的痕迹。因此,解决算法偏差最直接的方法就是调整原有的不平衡数据集。例如,保证训练样本的多样性,在训练数据中使用与男性数量相近的女性样本,保证标注样本的人背景多样化等。2018年,微软与专家合作纠正和扩展了用于训练人脸API的数据集。FaceAPI是MicrosoftAzure中的一个API,提供预训练算法来检测、识别和分析人脸图像中的属性。新数据通过调整肤色、性别和年龄的比例,将肤色较深的男性和女性的识别错误率降低了20倍,女性的识别错误率降低了9倍。此外,有些公司试图通过建立全球社区,将组织可能正在寻找的任何信息大规模地汇集在一起??,这样做的方式是广度和深度的结合使得引入截然不同的数据来进行训练成为可能人工智能系统有助于克服算法偏差等问题。毫无疑问,构建一个更公正的数据集是解决算法偏差最重要的方法之一。在此基础上,还可以应用新的消除偏见的机器学习技术。例如,哥伦比亚大学研究人员开发的一款名为DeepXplore的软件,可以通过技术手段让系统出错,从而暴露出算法神经网络的缺陷。DeepXplore通过以不同的方式看待事物来使用差异测试。如果所有其他模型对给定的输入做出一致的预测,并且只有一个模型对其做出不同的预测,那么该模型被判断为具有对打开黑盒有重要贡献的泄漏方法。此外,在2018年,谷歌还推出了一个新工具What-If作为检测TensorBoard中偏差的工具。使用该工具,开发者可以通过交互式可视化界面和反事实推理探索机器学习模型的特征重要性,找出误分类的原因,确定决策边界,测试算法的公平性等。显然,现实社会中偏见的成因错综复杂,科技作为一面镜子,折射出人类社会固有的诸多偏见。尽管为根除偏见作出了长期努力,但它尚未完全根除。偏见是生活中不可避免的事实,但这并不意味着偏见和歧视也是新技术不可避免的方面。人工智能作为第四次工业革命的代表技术,总有重新来过、修正偏见的机会。技术是由人类开发的,为人类而开发的,创造对每个人都有效且公平的技术始终取决于人类,而不是机器。