这个问题已经出现在世界各地的会议和社交聊天的讨论桌上——“机器可以攻击人类吗?”问题往往伴随《终结者》等电影场景和视觉效果,但我们所知道和看到的在大数据中使用AI的原因是,在设计更大规模、环境更复杂的系统时,存在一定的不确定性和偏差。机器有什么“感觉”?是什么让它们的行为与插入大型机的代码不同?如今,艾萨克·阿西莫夫(IsaacAsimov)的三项定律定义了机器在复杂环境中应如何表现的标准仍然立于不败之地?这些问题的答案在于我们选择定义游戏规则的方式以及机器如何应对突然的变化。在人工智能研究中,道德偏见是一个特殊的不确定领域,涉及一些小玩意儿和杠杆,这些小玩意儿和杠杆会拉动机器以有时看起来奇怪甚至有害的方式行事。随着无人驾驶汽车的兴起和人工智能驱动的生产方式席卷全球,一个悬而未决的问题再次需要一个答案。我们用这些机器做什么?您可能还喜欢:AI可以自我监督并减少偏见吗?偏差简介从数据的角度来看,偏差和方差与测量值与实际值的接近程度有关。在这种情况下,方差是测量值彼此相差多少的量度,偏差是测量值与实际值相差多少。在具有高精度的模型的高度特定情况下,方差和偏差都会很小。但是,这可能反映了模型在新数据上的表现有多差。然而,实现低偏差和方差是困难的,并且是各地数据分析师的祸根。对于涉及简单二进制计算不足以做出简单决策的用例,偏差尤其难以处理。您可能想问偏见是如何进入系统的。而且,如果机器不能在不亚于人类的关键点上做出决定,为什么首先要使用它们呢?要回答这些问题,您需要了解在大数据世界中如何构建模型的一般方法。首先从执行器和传感器收集和清理数据,为分析人员提供原始数据。然后这些值会经过一个预处理步骤,在这个步骤中它们被归一化、归一化或转换为去除维度和单位的形式。一旦数据被转换成合适的表格或逗号分隔格式,它就会被插入到一个层或函数方程网络中。如果模型使用了一系列隐藏层,请放心,它们将具有一个会在每一步引入偏差的激活函数。然而,偏见也可以通过许多收集方法的陷阱进入系统。可能某组或某类输出的数据不平衡,可能数据不完整/错误,或者可能没有任何数据可以开始。随着数据集越来越多,记录越来越少,系统当然有可能用一些预定义的值来填补这些空白。这导致了另一个假设偏差。黑匣子难题许多学者还认为,如果没有适当的上下文,数字可能并不意味着同一件事。例如,在颇具争议的一本书《钟形曲线》中,作者关于种族群体之间智商差异的主张受到了环境限制和差异观念的挑战。但是,如果人类能够得出这样的解决方案,机器需要多长时间才能消除这种逻辑判断失误?机会渺茫。如果机器输入错误或错误的数据,它将输出错误的值。问题是由于AI模型的构建存在歧义造成的。这些通常是黑盒模型,作为数据接收器和数据源存在,但不解释其中的内容。对于用户来说,无法质疑或质疑这个黑盒模型是如何得出结果的。此外,结果的差异需要解决其他问题。由于缺乏对黑匣子工作原理的理解,即使输入相同,分析人员也可能得出不同的结果。对于精度不是关键因素的值,此更改可能不会产生太大影响,但数据字段很少如此慷慨。例如,如果人工智能系统无法预测高度具体的参数,如pH值、温度或气压,工业制造商将蒙受损失。但当目标是解决贷款兼容性、犯罪累犯甚至大学录取的适用性等问题时,人工智能缺乏明确的价值将使它处于劣势。然而,人工智能爱好者有责任从另一个角度来解决这个问题。解释层间干扰的方法和规则对于解释每行代码和系数代表什么是必要的。因此,必须连根拔起并解剖黑匣子,才能了解是什么让机器运转起来,这说起来容易做起来难。即使看一眼最简单的神经网络AI也足以说明此类系统的原始性。节点和层都相互堆叠,各个权重与其他层的权重相互作用。对于受过训练的人来说,这似乎是一件大事,但对理解机器来说却意义不大。仅仅是因为人类和机器语言水平的差异吗?是否有可能以外行人可以理解的格式分解机器语言的逻辑?偏见的类型回顾数据分析中的偏见历史,由于技术不准确或负责分析的实体预定义的偏见可能会引入多种偏见。由于程序员的某些倾向和兴趣,可能会由于模型的错误定位而产生错误的假设和偏差。这是一些营销分析师在与潜在客户打交道时常犯的错误。收集软件可以提供有关转化者和未转化者的大量数据。大多数人可能会倾向于只针对未转化的潜在客户建模,而不是专注于同时针对两个人群的模型。在这样做的过程中,他们最终对客户可用数据的丰富性视而不见。困扰AI模型的另一个问题是无法正确分类数据或错误分类,最终导致分析师陷入灾难。在生产行业中,此类错误属于类型I和类型II-前者将不属于的记录分类,而后者则未能对属于的记录进行分类。从生产批次的角度来看,质量控制工程师可以通过只测试产品的一小部分来快速提高产品准确性。它节省了时间和金钱,但它可能是发生这种假设偏差的理想环境。另一个类似的例子是在图像检测软件中观察到的,其中神经网络扫描图片的损坏部分以重建逻辑形状。图像中对象方向的相似性可能会导致几个问题,这些问题可能会导致模型得出令人惊讶的有争议的结果。当前时代的卷积神经网络能够打破这种复杂性,但需要大量的测试和训练数据才能产生合理的结果。有些偏差是由于缺乏正确的数据(使用不必要甚至不必要的复杂模型)造成的。人们普遍认为,某些模型和神经网络编程只应在达到统计显着数量的记录后才应用于数据集。这也意味着算法必须设计为可重复地及时检查数据质量。AI本身是否隐藏着解决AI偏见问题的解决方案?研究人员认为,改进分析师收集和细分信息的调整方法很重要,并且应该考虑到并非所有信息都是必需的。话虽如此,应该更加强调消除和去除使模型完全不合适的输入和值。数据审计是另一种及时检查和消除偏差的方法。与任何标准审计程序一样,这种方法涉及对处理过的数据以及原始输入数据进行彻底清理和检查。审计员跟踪更改并记录可以对数据进行的改进,并确保数据对所有利益相关者完全透明。还有一些关于专门的XAI模型的问题,可以在适当的地方放在问题表中。这些模型涉及非常详细的参数模型开发,其中记录了每个步骤和更改,使分析人员能够查明可能的问题并触发实例。AI也走到了验证模型准确性和混淆矩阵的最前沿,而不是依赖简单的工具,例如ROC曲线和AUC曲线。这些模型着眼于在部署数据集之前对数据集执行重复的质量检查,并尝试覆盖数据的整体类别,而不考虑分布或形状。对于单位和范围差异因输入而异的数据集,这种预测试的性质变得更加困难。同样,对于与媒体相关的数据,分解内容并将其压缩为数字格式所花费的时间仍然会引入偏差。但随着数据透明度和第三方检查基础的新变化,公司至少意识到出了点问题。模型之间还插入了新的解释器循环,以强调大多数AI模型中的黑匣子。这些再次由AI模型驱动,这些模型经过系统地微调以发现不一致和错误。AI道德不端行为的例子很少数据分析师会熟悉假阴性和假阳性的概念。这些确定输出的差异在特殊情况下会导致错误,这会对人类产生不利影响。假阴性看跌期权是系统错误地将阳性类别识别为阴性的情况。同样,当负面类别被错误地识别为正面时,就会发生误报。在实际的大数据研究中可以更好地了解此类虚假案例的严重性。在使用逻辑回归模型对冠状动脉疾病(CHD)进行建模的著名案例中,尽管误报和误报的准确率很高,但混淆矩阵产生了大量数据。对于普通人来说,准确的模型似乎是唯一重要的“成败”检查。然而,即使在数据分析的早期,这样的模型也很明显会变得平淡无奇,甚至会误诊新患者。权衡是通过收集更多数据流和清理列以实现更好的数据规范化。如今,台阶已成为该行业的主要产品。优步的自动驾驶汽车在测试阶段遭遇车祸并不是业内专业人士关注的唯一危险信号。这些恐惧还延伸到其他领域,例如识别和机器感知。科技巨头亚马逊因其学习模式发展出媒体所谓的对女性的“性别偏见”而受到媒体的审查。在候选人偏见的一个令人担忧的案例中(以前在科技公司的求职者身上看到过),这些模型对女性的求职申请产生了比男性更高的负面依从性。另一方面,苹果等科技巨头也发现了问题,消费者大肆宣传FaceID,允许不同用户访问锁定的手机。可以说,用于识别面部表情以进行检测的模型即使对不同的人也可能产生相似的结果。工程师们坚持消除错误,并得出结论认为,可疑输入会使假设产生偏差只是时间问题。由于未能整合伦理价值观,人工智能在医学上的重大飞跃已经倒退了一个档次。可以代替移动中的护士和工作人员的价值观。这主要是通过解释所有可能的例子来解决的,在这些例子中,机器可以正确地取代人类并做出完全相同的决定。虽然,哲学专业的学生可能会争辩说,即使是人类也不遵循一套指导方针。有各种伦理学派——康德主义、平等主义、功利主义等。这些思想学派如何适应各种伦理困境取决于个人及其兴趣。在著名的拉杆箱中,一个人是否愿意拉动拉杆完全取决于该人所处的道德框架。当机器取代决策者时,问责制问题就变得模糊了。最后的话——如何让AI更合乎道德我们对这些系统的容忍度在哪里这个永恒的问题导致机器融入我们的日常活动。人工智能一直是交通、预测研究、金融投资、安全、通信和生产等救生和支持框架的基础。它已经渗透到人类生活的所有重要方面,却没有引起许多反对者的注意。当人工智能未能嵌入创造它的人类所遵循的哲学时,就会画一条线。我们与叶夫根尼·扎米亚京(YevgenyZamyatin)和艾伦·图灵(AlanTuring)的时代一样遥遥领先,那时机器被认为是公正的。通过教导AI讲道德来为机器注入新生命的挑战归结为一个基本问题,即作为人类意味着什么。我们现在知道,建立健全的道德框架需要将AI提炼成其本质,并且需要一种强调环境以强调结果质量的方法。至于工作场所多元化的基本原理,步骤很简单:密切关注数据。保持多样化但标准化。让团队不时监控预处理步骤。消除输出中任何形式的排除。去除可能对模型错误或无用的垃圾值。改进、审查、共享和重新收集结果并将其纳入模型。消除交互和数据孤岛,并始终运行健全性检查以最终确定目标是什么。消除数据孤岛并教会AI思考而不是模型思考。专注于佐哈里意识。涵盖未知的已知和已知的未知。至于未知的未知数,不幸的是,这种偏见将永远存在。
