当前位置: 首页 > 科技观察

MIT再次曝出知名数据集ImageNet存在系统性bug,罪魁祸首仍是WordNet

时间:2023-03-17 18:22:45 科技观察

近日,MIT研究团队发表论文指责知名数据集ImageNet存在系统性bug,论文也被国际机器学习会议ICML2020录用。同时,这篇名为《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》的论文也发表在了预印本图书馆arXiv上。下架后,麻省理工学院再次曝出知名数据集ImageNet存在系统性bug。罪魁祸首是WordNet。MIT研究团队之所以在ICML大会上介绍这项研究,是因为最近的“TinyImages”争议。就在本月早些时候,麻省理工学院(MIT)宣布永久删除了包含8000万张图像的TinyImages数据集,并公开道歉。原因是研究人员发表论文指责TinyImageNet数据集存在多个危险标签,包括种族歧视、性别歧视、色情内容等,而且这些指控是有根据的。论文表明,ImageNet在语义结构分析中使用的WordNet术语包含种族歧视等危险内容。同时,由于图片太小,数据量太大,没有人工对图片标签进行一一核对,导致出现问题。众所周知,著名的数据集ImageNet也使用WordNet进行语义结构分析。那么,ImageNet数据集是否也存在同样的问题呢?对此,麻省理工学院的研究团队给出了答案。大规模ImageNet数据集的出现,可以说意味着机器学习深度变革的新起点。2009年,李飞飞带领的研究团队在计算机视觉与识别模式会议(CVPR)上首次推出了ImageNet。ImageNet数据集包含10,000个类别和超过一百万张图像。数据量是前所未有的。正是因为数据量大、质量高,ImageNet数据集被广泛用于预训练和基准测试。然而,麻省理工学院的研究团队在最近的一项研究中指出,ImageNet存在明显的“系统标签问题”,导致其作为基准数据集时与实际情况不符。他们发现ImageNet数据集中大约20%的图像包含两个或更多对象对象。下架后,麻省理工学院再次曝出知名数据集ImageNet存在系统性bug。罪魁祸首是WordNet。在对多个目标识别模型进行分析后,数据显示包含多个物体的照片会导致整体基准的准确率下降10%%。下架后,麻省理工学院再次曝出知名数据集ImageNet存在系统性错误。罪魁祸首是WordNet。简单举个例子:如果这张图片是ImageNet数据集中的一张高清图片,我们可以看到图片中包含的物体不止一个,里面有女生,有吉他和唱歌的麦克风,画面的主要对象应该是女生。下架后,麻省理工学院再次曝出知名数据集ImageNet存在系统性bug。罪魁祸首仍然是WordNet,但ImageNet的数据标签可能不是女孩,也可能是唱歌的麦克风或吉他。重要的是ImageNet只会标注一个标签,而这可能会导致ImageNet在物体识别上出现错误。在他们的论文中,研究人员表明,“总的来说,单个ImageNet标签可能并不总是捕获ImageNet图像的主要对象表示。但是,当我们训练和评估时,我们将标签视为图像的潜在真相,因此,这可能会导致ImageNet基准测试与现实世界的对象识别任务在模型执行和评估性能方面不一致。”看到这里,你可能会疑惑为什么图像不能准确标注?其实问题的关键在于ImageNet使用的标注工具WorldNet。WordNet名词标注是关键WordNet由GeorgeArmitageMiller于1980年代创立,广泛应用于数据集的收集和标注过程。简单理解,ImageNet会根据WorldNet提供的名词及其语义层次在搜索引擎或Flickr等网站上搜索图片,作为数据集的初始来源。当WordNet提供一个名词时,ImageNet需要根据其设定的拼音层级对该名词的父节点进行同义词扩展,并将其作为搜索关键词。例如,搜索分类学名词“whippet”(父节点:“dog”)也将包括“whippetdog”。这类似于我们经常看到的“相关搜索”。为了进一步扩大图像池,数据集创建者还使用多种语言进行搜索。但这里的要点是,对于每个检索到的图像,已经确定了一个标签,如果该图像包含在数据集中,该标签将分配给该图像。也就是说,标签仅由WordNet节点为相应的搜索查询提供。在这个过程中,WordNet的语义结构会将非主要目标的图像合并到数据集中,然后就会出现上面提到的标注偏差。正如论文中的数据所示,不同的对象目标出现在同一个分类标签中。(如图)MIT下架后再次曝出知名数据集ImageNet存在系统性bug。罪魁祸首仍然是WordNet。既然如此,为什么在创建数据集的过程中仍然广泛使用WordNet一词呢?一方面是因为WorldNet可以完成大量数据的自动标注。我们知道,所有的数据集都必须经过标注才能使用,而优秀的数据集是具有大规模的。如果所有的数据集都人工标注,难度会很大,但是WorldNet可以很好的解决这个问题。另一方面,对于ImageNet,WordNet只是获取初始数据标签,其准确性需要通过相关模型再次验证。一般来说,ImageNet数据集的创建过程分为两个阶段:自动数据收集和众包过滤。众包过滤也就是所谓的review阶段,分为以下5个阶段:第一步:下架后,MIT透露知名数据集ImageNet存在系统性bug。罪魁祸首是WordNet。CandidateLabels:通过将现有的ImageNet图像标签与模型预测的前5个标签相结合,可以得到每张图像的Latentlabelsforimages。选择频率:使用MechanicalTurk(MTurk)平台将潜在标签与注释内容进行比较。经过反复的过滤循环,最好的标签(一般少于5个)出现的频率最高。CLASSIFY任务:对获取的少量多个标签重新定义一组新的标注内容,根据标注信息为不同的对象分配标签,确定一个主要对象的标签。这个过程称为分类。ObjectAnnotation:总结以上训练,得到更细粒度的图像标注;与原始的ImageNet标签相比,众包过滤后生成的标注可以更细粒度地表征图像的内容,但研究作者发现这些标注可能没有达到预期的效果。如下图所示,CONTAINS任务会选择多个标签对图像有效,并且对于70%的图像,标注选择的标签频率至少是ImageNet原始标签的一半。下架后,麻省理工爆出知名数据集ImageNet存在系统性错误,罪魁祸首是WordNet,下图显示虽然只感知到单个物体,但他们往往会选择多达10个类别标签.因此,ImageNet验证过程也无法为单目标图像获得准确的标签。下架后,麻省理工学院透露知名数据集ImageNet存在系统性错误,而罪魁祸首仍然是WordNet。因此,可以说图像标签在很大程度上仍然依赖于自动检索(WorldNet)过程。同时,众包过滤的审核流程还有很大的改进空间。关于未来如何优化创建数据集的任务,研究人员在论文中表示,我们认为开发注释过程,尤其是审查阶段,以更好地捕捉基本事实,同时保持可扩展性,是未来研究的重要途径。“种族歧视嫌疑,大规模数据集争议持续成为人工智能技术的基础,数据集在很多研究领域都有广泛的使用场景,尤其是在计算机视觉领域。近年来,隐私问题因使用数据集造成的泄密、种族歧视等问题持续引发人工智能技术发展的争议,此外近期麻省理工学院因涉嫌种族歧视删除了包含8000张图片的TinyImage数据图像修复算法PULSEdiscrimination也在学术界引起轩然大波,有网友发现PULSE在修复马赛克图像时,将奥巴马的人脸图像变成了高分辨率的白人,这一事件引起了黑人网友的不满。对此,图灵奖之父LeCun发推表示,训练结果存在种族偏见,因为数据集本身是有偏差的,工程师在使用过程中要注意这一点。今年因数据集引发的种族歧视事件多起,要解决这些数据集的争议,无非是从数据收集和标注阶段进行改进。根据研究人员的说法,对于大型数据集,理想的方法是从世界各地收集具有指定目标的图像,并让专家按确切类别手动过滤和标记它们。这里需要注意的是,非专家的人工标记也可能是错误的,但这种方法目前非常不切实际。事实上,ImageNet等数据集是从互联网搜索引擎抓取的图像,质量参差不齐,图像审查不力。同时,大量数据的专家人工标注也难以实现。然而,正如该研究声称的那样,可以通过进一步改进自动图像审查过程的技术来提高数据集的质量。此外,当前学术界也越来越关注数据集相关缺陷的问题。本月早些时候,计算机语言协会(ACL)也关注了这个问题。