当前位置: 首页 > 科技观察

你的人脸数据去了哪里?

时间:2023-03-13 23:45:59 科技观察

AI换脸软件ZAO和旷视科技校园人脸识别的风波后,17万人脸数据在网上商城公开挂牌出售的消息“接踵而至”,人脸一下子变得“危险”商品”。人脸识别无处不在。当收集人脸数据的渠道越来越广,很多人会疑惑,我们的人脸数据最终流向了哪里?刷脸解锁手机,支付,进出高铁站机场这个时代,你的脸可能在研究人员的数据集中,也可能在暗网的黑市交易中,或者它Deepfake之后可能换成另一具尸体了……人脸数据去哪了?数据集可能成为隐患在人工智能时代,科技公司将通过训练数十亿张人脸图片来改进人脸识别算法。你的脸很可能是“训练样本”之一。那么,软件公司通常从哪些渠道获取人脸图像呢?“喂养”我们自己的算法怎么样?早些年,人脸识别还没有进入深度学习阶段,人脸数据的收集还打着隐私的烙印。研究人员在将人脸数据采集到数据库之前需要征得志愿者的同意。.例如,耶鲁大学计算视觉与控制中心早期创建的耶鲁人脸数据库仅包含15名志愿者的165张图片。但到了后期,尤其是随着深度学习技术的快速应用和普及,数百名志愿者的人脸对于数据训练来说只是九牛一毛,人脸数据的采集开始变得不可控。人脸数据集通常是为图像识别比赛准备的,比如微软2016年发布的MSCeleb1M,包含10万名名人和近1000万张人脸图像的数据库。它用于服务MSRIRC,这是当时最高级别的图像识别比赛之一。还有被业界称为“黄金标准”的人脸识别算法测试FRVT,背后是美国国家标准技术研究院(NIST)提供的人脸数据集支持。这时候用于学术研究的人脸数据集还在可控范围内,但是到了后期,这些人脸数据用来干什么,除了数据训练,又流向了哪里呢?如果我们在搜索引擎中输入关键字“人脸数据集”,会发现可以下载获取大量的人脸数据库,就像网上下载资源一样,点击一下,跳转到下载软件,几G人脸包“属于”你。上千条被标记的人脸数据,就这么轻易就拿到了,想想都觉得毛骨悚然。那么问题来了,数据集中的人脸是从哪里来的?美客网粗略统计了几个人脸数据集,里面包含的人脸数据比较多,比较常用。从出版机构的角度来看,大多是科技公司和高校,获取渠道主要有以下三种:1.爬取互联网数据;2.来自Flickr,雅虎旗下的在线相册;3.新闻机构、商业公司等。这些人脸数据集有一部分已经被标注,包括人脸关键点检测、面部表情、人脸年龄和性别、人脸姿态等信息。当大部分数据集开放后,他们会写一份非商业性的补充协议,强调图片是在CreativeCommonslicense(CC协议)下抓取和搜索的,根据CC协议:照片可以重复用于学术研究,但是photos照片中的人物不一定授权许可,而是版权所有者。但是,数据集一旦发布,发布机构就无法控制其使用。否则,微软也不会在被媒体广泛曝光后悄悄删除这个全球最大的公共人脸识别数据库。之后,另外两个学术单位也删除了相关数据集:杜克大学的DukeMTMC监测数据集和斯坦福大学的Brainwash数据集。本来是为了促进学术研究的人脸数据集,都面临着被商业化和滥用的风险,更不用说其他来源的人脸数据了。以人脸数据交易为例。早在2016年,知乎上就有网友在淘宝上购买人脸数据的话题。除了网上商城,人脸数据也可以从出售人脸数据的商业公司获取。例如,一家名为VigilantSolutions的公司提供了1500万张人脸,可以用来“解决”人脸识别软件训练的问题。至于这些人脸从何而来,恐怕离不开上述渠道,也有可能是直接下载公开数据集转售。人脸数据是被卖掉还是流向人脸数据集,归根结底,后续的应用是完全不可控的。“裸奔”人脸数据是无法避免的风险。如果我们前期采集人脸数据或者是在志愿者知情同意的情况下获取,后期我们将完全放弃个人隐私,直接通过爬虫程序走。但很多人在将自己的照片上传到社交平台和网络相册时,并不知道这些照片已经包含在这份协议中。就像前段时间闹得沸沸扬扬的ZAO一样,在密密麻麻的用户协议中,一行不起眼的条款提到“同意授予ZAO及其关联公司和ZAO用户完全免费、不可撤销、永久、可再许可和可再许可的权利”,如果没有后续风波,你的人脸数据就会被悄悄“卖掉”。目前收集人脸的方式有很多种。除了政府部门的安防需求,很多业务场景也需要用到人脸识别。比如参加大型会议,主办方需要提前提供个人照片录入人脸识别系统;比如入住酒店,需要人脸识别确认;例如,一些社交应用程序会自动识别并标记上传图片中的人脸;披着相册应用的外衣,其实是一款收集人脸信息的软件程序……Facebook此前曾因“未经用户同意非法收集和存储数百万用户的生物识别数据”而被起诉。今年9月,迫于压力,Facebook选择停止在用户的照片和标签建议中默认使用面部识别。当你将包含自己人脸的照片上传到云端时,没有人能保证最终的人脸数据能够得到妥善保存。上传到平台必然涉及到是否保存到云端。如果在云端,数据最终会流向哪里?有什么风险?其实我们也可以从人脸数据集的来源渠道了解到,将人脸照片上传到网络的风险是非常高的。此前,有媒体披露,国内一家人脸识别公司发生大规模数据泄露事件,超过250万人的数据可被获取,包括姓名、身份证号码和照片。今年早些时候,美国海关和边境保护局收集的乘客和车牌照片被一家外包公司泄露,泄露的数据已经发布在暗网上供免费下载。类似的新闻层出不穷,因此人脸数据带来的风险也非常高。当私人信息被出售或公开时,人脸可以用于金融领域的欺诈,或用于一些换脸软件。在不合适的场合,比如把自己的脸变成小视频的女主角。此外,围绕人脸识别系统的种族歧视和偏见争议也引发了巨大争议。在人脸保卫战中,征集容易,监管难。有时,技术和应用会处于一种矛盾的状态。一方面,算法需要大量的人脸数据进行优化,从而带来更准确、安全、高效的识别,避免可能出现的欺骗行为。另一方面,算法优化过程中难以保证人脸数据的安全和不被滥用。当算法应用到场景中时,又会无限制地再次采集更多的人脸数据,最终陷入进退两难的境地。研究人脸识别的科技公司很多,从CV四小虎到谷歌、微软、亚马逊、阿里巴巴等科技巨头。他们在利用科技提高社会效率的同时,也会陷入舆论的漩涡。就在近日,继支付宝3年投入30亿推广人脸识别支付后,有消息称,微信也将提供100亿补贴推广人脸识别硬件设备,将人脸作为常态身份认证方式,保护人类安全。人脸安全也越来越重要。然而,人脸数据采集容易,监管难上加难。无论是在国外还是在国内,人们都担心人脸数据的安全问题。美国旧金山和萨默维尔已经通过立法,禁止在公共场所使用面部识别。技术,旧金山禁止警察和其他政府机构使用面部识别技术。这种一刀切的管理方式虽然在一定程度上规避了风险,但治标不治本。在国内,由于人脸识别走进课堂,以及换脸软件ZAO的病毒式传播,不少人开始关注人脸数据安全问题。近日,有消息称,相关部门将出台人脸识别领域相关金融标准,明确人脸信息采集、传输、存储、使用等方面的安全管理要求。其实说到如何保护我们的人脸数据,不外乎三个方面。除了提高人身安全意识,采集人脸数据的商业企业还需要通过技术手段保护数据安全,监管部门正从制度层面加快落实相关法规和标准。悲观地说,技术是一把双刃剑。虽然我们可以通过规章制度来降低一定的风险,但是有买卖就有危害。只要技术需要,你的人脸数据去哪儿了,用来做什么?不知道。