当前位置: 首页 > 科技观察

这个媲美ImageNet的数据集被MIT紧急下架,理由离谱

时间:2023-03-21 11:06:30 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。就在本周,麻省理工学院紧急删除了TinyImages数据集。原因很简单。有学者指出,这个通过大量搜索引擎整合的数据集,包含了很多令人作呕的标签:儿童淫秽、性暗示、种族歧视……以及这些图片的标签(b***h,w**re),带有强烈的偏见和不人道的意思。△从统计数据来看,含有此类标签的图片有数万张。如果使用包含此类标签和图像的数据集来训练AI,后果将是灾难性的。然而,情况似乎无可挽回:由于该数据集专注于微小图像,图像数量庞大,在计算机硬件还不发达的时候被广泛用于AI训练,是arXiv上高被引论文.Reddit上对此事的看法各不相同。有网友认为这件事有点小题大做。毕竟,这些通过网络收集到的图片和文字信息,也是现实世界的一部分。在我看来,这有点“道德恐慌”。有没有人认为用于训练GPT-3的近1TB的开放网络文本信息没有什么冒犯性的?但也有支持的网友鼓掌。麻省理工学院干得好!除了这样感性的看法,很多人也开始理性思考形成这样数据集的原因。是不是做数据集的作者没时间去查导致的?这些机器学习研究人员在处理图像时不会设置搜索过滤器吗?根据我的经验,一些制作不当的数据集是在没有时间检查的情况下发布的。很快就有网友否定了这一说法,因为微影不属于本案。我认识原作者,情况不是你想的那样。我认为作者只是没有像我们今天这样想。当他们使用搜索引擎整合图片时,他们可能没有考虑过滤标签列表。不管网友们持什么看法,这套数据集下架已经是不争的事实。即使是比TinyImages更有影响力的数据集ImageNet,在这项研究中也被指出有一些不舒服的图片,但它没有TinyImages那么大。有学者指出,ImageNet维护者众多,图像分类清晰,而TinyImages几乎从未被仔细检查过。TinyImages数据集这么多年来很少人工检查的原因是什么?这个问题可能要从TinyImages本身的特性说起。TinyImages数据集的特点自2006年TinyImages数据集问世以来,它已经包含了WordNet中超过50,000个不同的标签。数据集中的图片来自搜索引擎搜索标签,找到的图片自动下载。排序后的图片数量达到8000万张,每张图片都以极低的分辨率(32×32)保存在数据集中,形成了TinyImages数据集的特点:数量多、图片小。然而,正是因为图像数量众多,这些令人反感的图像被隐藏得太深;并且低分辨率使得这些图像难以被视觉识别。△在TinyImages,当带有贬义“黑鬼”标签的图片被下架时,麻省理工学院给出了官方解释。TinyImages已下线,因为我们不能保证完全删除所有令人反感的图像。同时,我也希望TinyImages数据集的现有副本不再在互联网上传播。TinyImages下架最重要的原因是因为这些带有强烈偏见和令人反感的标签的图像有悖于我们计算机视觉行业努力实现的包容性和无偏见的价值观。不仅如此,用这些标签训练的AI模型在图像分类或目标检测时,可能会使用这些隐含的非人道标签进行目标识别。为什么它会让AI产生偏见?不管是TinyImages还是ImageNet,这次都栽在了一个叫做WordNet的分类法上。同义词库以其强大的词义相关性而闻名。根据各种词的含义,将不同的词组成各种集合,最终形成词库网络。例如,WordNet会将“比??基尼”、“色情”和“妓女”(贬义)等词关联起来,如果你在搜索引擎上进行图像搜索,得到的图像就会有强烈的偏见。△“妓女”标签下的形象可能只是一个穿着比基尼的女人。WordNet不可避免地会包含许多带有贬义和偏见标签的图片。如果在使用这些图片进行训练时不对标签进行过滤,经过训练的AI可能会戴上“有色眼镜”,使用这些标签来识别人。幸运的是,ImageNet因其受欢迎程度和更好的图像分类而得到了很好的维护。相比之下,TinyImages中很多带有贬义标签的图像由于分辨率低而难以识别。才导致这次紧急下线。但正如一些网友所说,无论如何,制作一个没有任何偏见的数据集是良好的AI训练不可或缺的一部分。目前,许多最先进的数据集都在不断努力以各种方式接近这个“无偏见”的目标。TinyImages作者简介△作者AntonioTorralbaAntonioTorralba是麻省理工学院副教授。主要研究方向为计算机视觉和机器学习。TinyImages是他和另外两位作者历时8个月编译的微型图像数据集。