随着孩子的成长,他们通过听觉、视觉和触觉等感官来了解周围的世界。他们对世界的理解、他们形成的观点以及他们最终做出的决定都受到他们成长经历的影响。例如,一个在性别歧视社区生活和长大的孩子可能没有意识到他们对不同性别的看法存在偏见。机器学习模型也是如此。他们不是使用感官来感知,而是使用数据——人类提供的数据——来学习。这就是为什么用于训练机器学习模型的数据尽可能无偏差至关重要。下面描述了机器学习中一些最常见的偏差形式:(1)历史偏差在为训练机器学习算法收集数据时,获取历史数据往往是最容易入手的地方。但是,如果您不小心,很容易包含历史数据中存在的偏差。以亚马逊为例。该公司于2014年着手建立一个自动筛选求职者的系统。这个想法是向系统提供数百份简历,并自动挑选出最优秀的候选人。该系统接受了公司10年的工作申请及其录取结果的培训。所以有什么问题?因为亚马逊的大部分员工都是男性(尤其是技术角色)。人工智能算法了解到,由于亚马逊的男性员工多于女性,男性更适合应聘者,从而歧视女性求职者。到2015年,该项目因偏见而不得不取消。(2)样本偏差当训练数据不能准确反映模型的实际使用情况时,就会出现样本偏差。通常,一个群体要么代表人数过多,要么代表人数不足。例如,美国的一个培训语音转文本的项目需要大量的音频片段及其对应的转录。那么这种有声读物将获得大量此类数据的方法有什么问题呢?事实证明,绝大多数有声读物都是由受过教育的白人男性讲述的。毫不奇怪,当用户来自不同的社会经济或种族背景时,使用这种方法训练的语音识别软件表现不佳。(3)标注偏差训练机器学习算法所需的大量数据需要标注才有用。当人们登录网站时,通常是他们自己登录。例如,要求识别包含红绿灯的广场?您实际上是在为该图像识别一组标记,以帮助训练视觉识别模型。然而,人们标记数据的方式千差万别,不一致的标记会给系统带来偏差。(4)聚合偏差有时,人们聚合数据是为了简化数据或以特定方式呈现数据。这可能会导致模型创建前后的偏差。以这张图为例:它显示了人们的薪水如何随着工作年限的增加而增加。这有很强的相关性,你工作的时间越长,你得到的报酬就越多。下图给出了用于创建此聚合的数据的概念:(5)确认偏差简而言之,确认偏差是人们倾向于相信能够证实他们现有信念的信息,或者丢弃不能够证实他们现有信念的信息。从理论上讲,可以构建有史以来最准确的机器学习系统,而不会在数据或建模方面产生偏差。确认偏差在机器学习的应用中尤为普遍,在采取任何行动之前需要人工审查。人工智能在医疗保健行业的使用导致医生对算法诊断不屑一顾,因为它与他们自己的经验或理解不符。通常,许多医生没有阅读最新的研究文献,这些文献可能包含与他们的知识和经验不同的症状、技术或诊断。实际上,医生阅读的期刊数量有限,但机器学习系统可以将它们全部编入索引。(6)EvaluationBias假设一个团队正在构建一个机器学习模型来预测美国大选期间的投票率,并希望通过使用一系列特征,例如年龄、职业、收入和政治派别,来准确预测某人是否会投票.所以我建立了一个模型,在当地的竞选活动中对其进行了测试,并对结果感到非常满意。它似乎能够在95%的情况下正确预测某人是否会投票。该团队对该模型非常失望,因为它曾用于美国竞选活动。因为花费了很长时间设计和测试的模型只有55%是正确的——这只比随机猜测好一点点。其糟糕的结果是评估偏差的一个例子。通过通过地方竞选活动评估其模型,它无意中设计了一个仅适用于该地区的系统。美国其他地区的投票模式大不相同,即使包含在其初始训练数据中,也没有完全考虑在内。结论这些是偏见影响机器学习的六种不同方式。虽然这不是一个详尽的列表,但它应该可以很好地了解机器学习系统最终产生偏差的最常见方式。
