当前位置: 首页 > 科技观察

数据集拥有自己的世界观?不,其实还是人的世界观

时间:2023-03-23 10:37:51 科技观察

数据集有自己的世界观?不,它实际上是人类的世界观,随着深度学习的不断日常使用,数据集的偏见和公平性成为了一个热门的研究方向。偏见在AI领域是一个棘手的话题:有些偏见是有益的,比如嘈杂的数据可以增加模型的稳健性,而有些偏见是有害的,比如容易误认有色人种。另外,当我们得到一个不完美的模型时,数据集中存在什么样的偏差?这些偏见是如何产生的?Google的PAIR(People+AIResearch)团队最近发表了一篇博文,用一个非常简单有趣的例子讨论了这些问题。原文链接:https://pair.withgoogle.com/explorables/dataset-worldviews/1偏向分类假设我们有如下图所示不同形状的数据集,它们对应的标签有无阴影,如下图。使用页面上的交互式分类器,可以对以下结果进行分类,得到相应的准确率。模型并不完美,为了修正结果,你可能想知道模型犯了什么错误,或者数据中存在什么类型的偏差?2公平性分析由于各图的主要区别在于形状,因此形状的差异可能存在偏差。通过观察,您可能会认为三种最主要的形状主要是圆形、三角形和矩形。为了检验这个假设,您需要确保您的模型在面对圆形、三角形和矩形时表现得同样好。接下来我们进行公平性分析。首先,我们需要对每个形状进行标注,但一个问题是有些形状无法确定。这时,有两种策略。一种是将这个形状判断为最有可能的圆形或三角形和矩形(以他们的最佳猜测);一种是给出一个选项:以上三种形状都不是(作为“其他”)。然后我们分析模型对每种形状的分类精度。此交互式页面给出了两种策略的结果:策略1:找到最可能的形状:第一种策略表明分类器对矩形的分类最好,其次是圆形,最差的是三角形。但这是否表明该模型偏向于三角形?我们在页面上切换第二个策略。战术二:以上都不是:结果变了!第二种策略表明分类器对三角形和矩形表现最好,但对圆形表现最差。我们对偏见的理解因我们用来制定分类的策略而异;换句话说,每个分类都代表了对什么是重要分类特征的不同观点。决定数据集和最终模型决策的是您-制定策略的人。也就是说,每一个数据集都代表着一种“世界观”,其集合的背后是人们的意志。那么,回过头来想一想,还有哪些策略或规则可能会影响我们对公平性的判断呢?是的,我们最初的分类标准是基于形状,例如圆形、三角形或矩形。这也是我们人为的标准。如果我们改成“尖”或“圆”呢?还是“小”还是“大”?下图展示了个体在不同评价标准下的正确和错误分类:图例:当类别标准为“尖”或“圆”,其他模糊类别为“寻找最可能的形状”时分类结果图例:当类别标准是“小”或“大”,其他模糊类别是“寻找最可能的形状”,可以看出,无论何时选择一个标准,所有得到的误分类数据的分布也是不同的,所以度每个案例中实例的偏见或公平性分析也会有偏见——偏见似乎是有偏见的。3标签在讲述故事回顾一下,假设您是负责收集此数据集的成员,最初您决定与偏差相关的分类类别,所有形状实例究竟是如何分类的?你通过“尖”和“圆”来判断,如下图所示:其他注释者试图回答以下问题:这个图形是“尖”还是“圆”?收集完成后,可以分析以上错误类别,可以得到分类器在尖形表现较好,圆形表现较差,然后得到如下报告:那么,如果初始评价标准是“大”或者“小”,重复上面的步骤,但是可以让分类器更好的对小的形状进行分类,于是就有了这样一个故事……避免这个问题的一个自然的解决方案是,收集更多的数据和更多的特征:如果我们有足够的数据并且足够详细地了解它们,我们将能够避免做出不同的分类决策,从而避免产生具有独特偏见的影响者。然而,情况似乎并非如此。想象一下,当我们描述身边的一件事情时,无论是向朋友讲述一个事件,还是向计算机讲述一个形状,我们都会有意无意地选择我们认为最重要的部分,或者选择使用什么工具来传递它。不管我们是否这么想,我们一直在做分类——正如我们在形状示例中看到的,所有的选择都会使一些特征比其他特征更重要,使一些差异可见。然而,它可以被忽略,这使得一些东西很容易分类有些成为噪音点。分类标准说明了整个故事。4真实场景如果我们回顾真实的机器学习应用,比如监督学习任务中的目标检测任务。我们想象如下图:我们要标记这样一个数据集,所以我们要先标记其中的目标对象。其中一个注释写道:这看起来已经很客观了,不是吗?毕竟山是山,树是树。但即便如此,同一张图片中同一区域的标签也可能不同,比如:山可以命名,树也可以命名为“无药用植物”。是的,没有通用的方法来处理每个对象、每个单词或每个图片。数据集总是特定时间空间和条件下的结果。他们是社会的产物,他们有历史眼光,他们有政治色彩。忽视这些会产生非常实际的后果。那么我们应该如何处理这些信息呢?一个好的起点是反思数据所在的上下文,并始终对数据感到好奇。很难判断数据集本身的价值——它们是否客观、普遍、中立——它可能只是反映了你习惯的一种世界观。所以了解你自己的世界观可以告诉你所谓的客观数据的局限性。总是问问自己:你对这个世界有什么假设?什么感觉像常识?有什么地方有点违背常识?重要的是,人们不应该忘记考虑数据集:谁收集了它?为什么收集?谁付钱来收集它?所谓的“真值”标签从何而来?之后,您甚至可能会发现自己质疑在数据收集过程中所做的一些假设,从而对分类任务有更全面的了解。如果对您的数据有很多疑问,那么您已经有了一个良好的开端。5研究团队介绍People+AIResearch(PAIR)是Google的一个跨学科团队,通过基础研究、构建工具、创建设计框架以及与不同社区合作来探索人工智能的人性化一面。该团队的宗旨允许机器学习发挥其积极潜力,因为它需要广泛参与,涉及它所影响的社区,并由不同的公民、政策制定者、活动家、艺术家等群体指导。团队开发了许多有趣的可视化交互页面,探索了许多有趣的AI+公平性或可解释性话题。去试试吧!