机器学习中的数据偏差是一种错误,其中数据集中的某些元素比其他元素加权和/或表示得更高。有偏见的数据集不能准确地代表模型的用例,导致结果偏斜、精度低和分析错误。通常,机器学习项目的训练数据必须代表现实世界。这很重要,因为这些数据是计算机学习完成工作的一种方式。数据偏差可能发生在一系列领域,从人类报告和选择偏差到算法和解释偏差。下图是仅在数据收集和注释阶段出现的各种偏差的一个很好的例子。解决机器学习项目中的数据偏差意味着首先确定数据偏差所在的位置。只有当您知道哪里存在偏差时,您才能采取必要的步骤来纠正它,无论是解决缺失数据还是改进注释过程。考虑到这一点,重要的是要对数据的范围、质量和处理保持警惕,以尽可能避免偏见。这不仅会影响模型的准确性,还会影响道德、公平和包容性问题。本文列出了机器学习中最常见的七种数据偏差类型,可以帮助您分析和了解偏差发生在何处以及我们可以采取的措施。数据偏差的类型此列表不包括所有类型的数据偏差,但包括常见数据偏差的示例,以及发生数据偏差的示例。示例偏差:当数据集不能反映模型运行环境的真实情况时,就会出现示例偏差。例如,一些面部识别系统主要针对白人男性进行训练,因此这些模型对女性和不同种族的人的准确性要低得多。这种偏差的另一个名称是选择偏差。排除偏差:排除偏差在数据预处理阶段最为常见。最常见的情况是删除被认为不重要的有价值数据。此外,系统在排除某些信息时也可能存在偏差。例如,假设我们有一个北京和深圳客户销售的数据集。我们98%的客户来自北京,所以我们选择删除位置数据,因为它是无关紧要的。但是,这意味着我们的模型不会发现深圳客户增加了两倍。测量偏差:当为训练收集的数据与现实世界中收集的数据不同,或者测量误差扭曲了数据时,就会出现这种类型的偏差。这种偏差的一个很好的例子出现在图像识别数据集中,其中训练数据是用一种相机捕获的,而生产数据是用另一种相机捕获的。在项目的数据标记阶段,由于注释不一致,也可能会出现测量偏差。回忆偏差:这也是一种测量偏差,在项目的数据标记阶段很常见。当我们不一致地标记相同类型的数据时,就会出现召回偏差,从而导致精度降低。例如,假设我们的团队将手机图像标记为损坏、部分损坏或未损坏。如果有人将图像标记为损坏,但将类似的图像标记为部分损坏,那么我们的数据将不一致。观察者偏差:也称为确认偏差,观察者偏差是指在数据中看到你想看到的东西。当研究人员带着关于研究的主观想法(无论是有意识的还是无意识的)进入项目时,就会发生这种情况。当贴标签者让他们的主观思想控制他们的贴标签习惯时,就会产生不准确的数据。种族偏见:虽然不是传统意义上的数据偏见,但由于最近在AI技术中流行,这种偏见值得一提。当数据偏向特定人群时,就会出现种族偏见。正如在面部识别和自动语音识别技术中看到的那样,该技术无法像白人一样准确地识别其他有色人种。相关性偏差:这种偏差发生在机器学习模型的数据扩充和/或文化偏差倍增时。您的数据集可能包含一组工作,其中所有男性都是医生,所有女性都是护士。这并不意味着女性不能成为医生,男性不能成为护士。然而,就机器学习模型而言,女医生和男护士是不存在的。关系偏见因造成性别偏见而广为人知,正如在采矿AI研究中所见。如何避免机器学习项目中的数据偏差?防止机器学习项目中的数据偏差是一个持续的过程。虽然有时很难知道数据或模型何时存在偏差,但我们可以采取许多步骤来帮助防止偏差或及早发现偏差。以下是机器学习项目中出现数据偏差时的一些常见做法:尽最大努力提前研究我们的用户。请记住注意我们的一般用例和潜在的异常值。确保我们的数据科学家和数据标记团队多样化。在可能的情况下,结合来自多个来源的输入以确保数据多样性。创建数据标记的黄金标准。黄金标准是一组数据,它反映了任务的理想标记数据,使我们能够衡量团队注释的准确性。为数据标记期望建立明确的指导方针,以便所有数据标记者都在关于期望的同一页面上。对于所有数据准确性可能容易出现偏差的项目,请记住使用多通道注释。这方面的示例包括情绪分析、内容审核和意图识别。从具有领域专业知识的人那里获得帮助,以检查我们收集和/或注释的数据。团队外的人可能更容易看到团队忽视的偏见。我们的数据会定期进行分析。跟踪错误和问题区域,以便您可以快速响应并解决错误和问题区域。在决定删除或保留数据点之前仔细分析数据点。使偏差测试成为开发周期的一部分。谷歌、IBM和微软都发布了工具和指南来帮助分析许多不同数据类型的偏差。总结重要的是要了解任何数据项目的机器学习中的潜在偏差。通过尽早建立正确的系统并控制数据收集、标记和执行,我们可以在问题出现之前或出现时对其做出反应,从而降低成本并提高模型的准确性。
