2012年,AI研究人员在计算机视觉方面取得了巨大进步,而被称为ImageNet的数据集至今仍在数以千计的AI研究项目和实验中使用。但上周,在数据集的管理员决定对它们进行模糊处理以保护隐私后,ImageNet上的所有面孔突然消失了。ImageNet数据集的管理者为当今深度学习的进步铺平了道路。现在,他们又朝着保护人们隐私迈出了一大步:混淆数据集。2012年,人工智能研究人员在计算机视觉方面取得了巨大进步,这在很大程度上要归功于异常庞大的图像集。该数据集包含从网络上收集并手工标记的图片中的数千个日常物体、人物和场景。这些称为ImageNet的数据集至今仍在数以千计的AI研究项目和实验中使用。但上周ImageNet上的所有面孔突然消失了,因为管理数据集的研究人员决定对它们进行模糊处理。正如ImageNet帮助开创了人工智能的新时代一样,修复它也面临着许多挑战,主要是对无数人工智能程序、数据集和产品的影响和挑战。“我们担心隐私问题,”普林斯顿大学助理教授奥尔加·鲁萨科夫斯基(OlgaRussakovsky)说,他是ImageNet的共同负责人。2012年,计算机科学家正在研究可以识别图像中对象的算法,为此创建了ImageNet。的。然后,一种称为深度学习的技术,通过向神经网络添加标记示例来“教授”神经网络,也被证明比以前的方法更有效。从那时起,深度学习推动了人工智能的复兴,同时也暴露了该领域的缺陷。例如,面部识别已被证明是深度学习的一个特别受欢迎和有前途的应用,但它也存在争议。由于担心侵犯公民隐私,一些美国城市已经禁止政府使用该技术,因为这些程序在识别非白人面孔方面不太准确。ImageNet包含150万张图像和大约1000个标签。它主要用于评估机器学习算法的性能,或训练算法执行特殊的计算机视觉任务。今天,它模糊了243,198张照片。Russakovsky表示,ImageNet团队想要确定是否可以在不改变物体识别能力的情况下模糊数据集中的人脸。“人们偶然出现在数据中,因为他们恰好出现在描绘这些物体的互联网照片中,”她说。也就是说,在一张啤酒瓶的照片中,即使喝啤酒的人脸上有粉红色的污迹,对啤酒瓶本身也没有任何影响。在与ImageNet更新一起发布的研究论文中,数据库背后的团队解释说,他们使用亚马逊的人工智能服务Rekognition来模糊人脸。然后他们付钱给MechanicalTurk员工以确认和调整他们的选择。研究人员表示,模糊人脸不会影响在ImageNet上训练的几种物体识别算法的性能。他们还表明,使用这些对象识别算法构建的其他算法同样不受影响。Rusakowski说:“我们希望这种概念验证能够为该领域更具隐私意识的视觉数据收集实践铺平道路。”2019年12月,ImageNet团队删除了人工标签引入的带有偏见的贬义词,此前一个名为MiningAI的项目引起了人们对该问题的关注。该研究表明,他们可以识别数据集中的个人,包括计算机科学研究人员。他们还发现其中包含色情图片。Prabhu说,模糊面部是一件好事,但令人失望的是ImageNet团队没有承认他和BillHahn的工作。Russakovsky说,引用将出现在该论文的更新版本中。模糊人脸仍然可能对在ImageNet数据上训练的算法产生意想不到的后果。例如,算法可能会在搜索特定对象时学习寻找不明确的面孔。“一个需要考虑的重要问题是,当你在模糊人脸数据集上部署模型时会发生什么,”Russakovsky说。例如,在这个数据集上训练的机器人可能无法面对被丢弃。麻省理工学院的研究科学家AleksanderMadry发现了ImageNet的局限性。他认为,在包含模糊人脸的数据集上训练的AI模型在显示包含人脸的图像时可能会表现得很奇怪。他说:“数据中的偏差可能非常微妙,但同时可能会产生重大后果。这就是为什么在机器学习的背景下考虑稳健性和公平性如此棘手。”关于AI公司侵犯隐私权的问题,我还是希望AI公司在发展技术的同时,也能思考这些附带的问题。
