本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。315晚会会让大家体会到人脸识别有多可怕。在大洋彼岸,全球最具影响力的AI数据集也开始行动起来。最近,ImageNet数据集决定对所有面孔进行编码以保护其中包含的人的隐私。ImageNet的管理者之一OlgaRussakovsky与李飞飞的团队合作,“挑选”数据集中所有包含人脸的图像。ImageNet一共有1000多个标签,其中只有3个标签是和人有关的,而且很多标签下可能还有大量看似与人脸无关的人脸照片。因此,研究团队使用AmazonRekognition的自动人脸识别和众包方法,在150万张图片中找到了243,198张包含人脸的图片。这些图像中的所有562,626张面孔都经过了模糊处理。人脸编码会影响AI模型的效果吗?这大概是“炼金术士”们最关心的问题了。杨开宇博士普林斯顿大学的学生,在修改数据集后查看了这个问题。偏差很小,但结果很微妙。研究人员使用混淆后的数据集进行对象检测和场景检测基准测试。在对AlexNet、VGG、ResNet等15种主流网络模型进行测试后发现,Top-1准确率下降幅度高达1%,平均下降幅度仅为0.66%,Top-5准确率下降平均下降0.42%。根据图片中模糊区域所占比例的不同,Top-1准确率随着模糊比例的增加而降低,最高可达4%以上。某些类别中更接近模糊面孔的对象(例如口琴或面具)会导致更高的分类错误率。令人费解的是,一些没有人脸的照片在准确率上会有较大波动,比如“哈士奇”和“哈士奇”的分类。其中,爱斯基摩犬的识别准确率下降明显,而哈士奇则明显上升。就连笔者也觉得奇怪,这两个类别中的大部分图像都没有人脸。具体原因只能等待后续研究。MIT科学家AleksanderMadry认为,在模糊人脸的数据集上训练的AI有时会很奇怪,数据中的偏差非常细微,但可能会产生严重的后果。对隐私和偏见说不在2020年的FAccT计算机科学道德与伦理会议上,ImageNet数据集从“人”子树中删除了2,702个同义词集,因为这些类别包含冒犯性、贬损性或淫秽表达。例如一些种族主义和性别歧视的内容。虽然ImageNet这次在隐私问题上做出了重大改变,但UnifyID首席科学家VinayPrabhu指出,该数据集仍然存在很多严重问题。去年7月,Prabhu发表的一篇论文指出,ImageNet和TinyImages等图像数据集不仅危害隐私,还存在一些难以描述的图像。在那篇论文中,Prabhu建议模糊数据集中的人脸并仅在参与者明确同意的情况下收集图像,而不是为此类数据集创建数据共享许可证。他连续10个月给ImageNet团队发邮件报告这个问题,直到去年4月才收到李飞飞的回复。ImageNet团队的论文没有引用他。在接受《连线》杂志采访时,Prabhu对ImageNet团队不认可他的工作表示失望。Russakovsky回复说,该论文的更新版本将在引文中包括Prabhu的研究。2019年,微软悄悄删除了MSCeleb,这是一个包含1000万张图像的人脸数据集,未经我同意。以前用公共摄像头收集的数据集,比如杜克大学的MTMC和斯坦福大学的Brainwash,近年来都被删除了。在公众隐私意识觉醒和法律逐步完善的背景下,人工智能数据集保护用户隐私的时机到了。
