曾经,“在网上,没人知道你是狗。”现在,“你站在桥上看风景,看风景的人在楼上看你”。我们无处可躲。Netflix因严重侵犯隐私而被一名同性恋用户起诉。2006年,该公司公布了约50万用户的1亿条租借记录,包括用户评分和评分日期,并悬赏100万美元,希望吸引工程师通过软件设计提高其电影推荐系统的准确性。尽管Netflix在采取行动之前已经对数据进行了匿名处理,但“匿名”的同性恋用户仍然被识别出来了。匿名化不能保护隐私数据?在数据容易裸奔的科技时代,匿名化刚刚让大家吃了定心丸,“耳光”来得这么快?事实上,匿名和隐私在理论上和概念上是完美融合的,但从技术角度和解决方案来看,融合之路并没有想象的那么简单。数据匿名化的前世今生数据匿名化的社会认知应该是近几年才逐渐普及,但实际上从技术层面的想象和实践早已开始。实验室总是迈出第一步。1997年,美国学者Samarati和Sweeney提出了k-anonymity匿名模型,开创了后续各种技术方案的出现先河。当然,届时,数据匿名话题将更多地成为科技圈的一场狂欢。近年来,随着大数据和智能技术的发展和渗透,数据泄露、侵犯隐私等问题日益突出,受影响群体呈指数级增长。一方面,数据是智能时代的基石,不可能因为窒息而完全放弃。另一方面,政府、企业、个人也不断受到这个问题的困扰,市场格局也容易出现波动,不利于长远发展。这时候,匿名化技术就成为一种折衷方案。但数据匿名化需要技术投入,如果仅靠企业主观驱动,效果有限。因此,在匿名数据的发展中,真正打破僵局的是法律领域的关注。最具代表性的就是让互联网公司心有余悸的GDPR。2018年正式实施的GDPR将个人数据保护提升到前所未有的高度,同时也对数据处理公司等主体施加了非常严格的保护义务和法律责任。其中,GDPR有一条提到:控制者应采取适当的技术和组织措施,如假名化(pseudonymisation),在确定处理方法和过程时将附加数据与个人数据分开存储,除非使用附加数据,否则个人数据不能分配给特定的数据主体。显然,GDPR白纸黑字地将个人数据的保护上升到法律层面,已经澄清了以往数据使用过程中涉及的大部分歧义。此外,真正具有威慑力的是其“残忍”的处罚。众所周知,科技巨头们再进一步,GDPR真的会开出天价罚款。最有趣的案例是,GDPR在生效的第一天就开了一个好头,起诉了两家科技巨头:Facebook和谷歌。两家公司被指控胁迫用户同意共享个人数据,并面临分别被罚款39亿欧元和37亿欧元(合计约88亿美元)的罚款风险。当然,除了GDPR之外,各国政府也相继出台了相关严格的个人数据保护法。例如,英国更新了数据保护法,更加重视个人数据,中国也出台了数据安全法草案,明确了保护责任,在2012年FTC发布的隐私保护指南中,个人数据的边界得到了扩展,突破了与特定自然人相关联的传统定义,延伸至用户所使用设备的识别。在此背景下,对于企业来说,天价罚款是痛苦的,政府监管更是一道难以逾越的红线。此外,用户隐私保护意识的觉醒也是不可推卸的需求。GDPR在对匿名化的定义中也提到:“匿名化是指将个人数据从可识别的个人信息中去除,通过这种方式,数据主体将不再被识别。匿名化后的数据不属于个人数据,因此无需适用法规的相关要求,机构可以自由处理匿名数据。”数据匿名化已经成为很多企业或数据应用主体的重点投资方向,有业内专家表示,匿名数据的收集主要用于帮助企业发现产品错误,是互联网上最常见的提高产品质量的解决方案之一。通过分析非个人身份信息整体产品体验数据匿名的“bug”那么,常见的数据匿名化方法有哪些呢?广义上可以分为两类:一类是扰动法,将原始数据进行扭曲值,例如数据屏蔽和脱敏,噪声添加等,另一种是非干扰方法,即使数据集不完整,通过改变在这样一个消毒数据集中报告数据值的粒度来工作在个体记录层面维护数据真实性的方式,如数据抑制、数据泛化等,上述k-anonymity匿名模型是一种非扰动的重要方法。它要求在发布的数据中的准标识符上有一定数量(至少k)的不可区分记录,使得攻击者无法识别隐私信息所属的具体个体,从而保护个人隐私。数据匿名化一直在发展,问题也逐渐浮出水面。正所谓“路高魔鬼一尺”,匿名化在一定程度上保护了隐私,但“利害关系人”仍然可以从匿名数据中确认自己的身份。2016年,一位德国研究人员在第33届ChaosComputerClub会议上发表了他的研究成果:即使点击流已经匿名化,仍然可以找到清晰的用户画像,不同域名的数量少于十个就足够了暴露你。这些披着匿名外衣的数据被称为“暗数据”,是极易滋生的新的罪恶滋生地。此外,去年发表在英国《自然通讯》杂志上的一项研究称,英国科学家使用一种新开发的统计方法,发现可以从一个不完全匿名的数据库中识别一个人的身份。研究人员开发了一种机器学习模型,该模型使用邮政编码、性别和出生日期这三项信息,可以以81%的概率准确跟踪“匿名”数据集中的一个人。事实证明,数据匿名方式不仅面临着自身技术迭代更新的压力,还有新技术的冲击。例如,人工智能相关算法可能会使用零星数据来训练更准确的用户画像。基于差分隐私的解决方案之路任重而道远,但即将到来。目前法律、市场、技术都已经为数据匿名做了一定的基础设施建设,下一步还需要更多的投入和更新。首先,从参与作用来看,仍然需要政府组织牵头,从法律层面对整个行业施压,强制执行标准化。企业需要更多的资源投入到匿名化上,而个人则需要从日常细节中完善网络。隐私意识,如自觉使用匿名浏览器、及时清除cookies和Web数据等。另外,从技术角度来说是迭代更新。针对数据匿名安全性不足的现状,出现了基于差分隐私的数据匿名化隐私保护模型研究。差异隐私是密码学中的一种手段,旨在提供一种方法来最大限度地提高数据查询的准确性,同时最大限度地减少从统计数据库查询时识别其记录的机会。事实上,差分隐私也利用了统计数据。该技术可以实现:在一个人的使用习惯样本中加入噪声,保证数据相对模糊和匿名,随着越来越多的人表现出相同的使用习惯,开始识别和总结共性。一个人的数据不一定准确,但是大量用户的数据可以得出相对准确的结论。在这种情况下,即使有人攻击数据库,也只能看到系统的、通用的信息,无法准确识别具体的个人信息。Apple、Facebook和华为都在使用这项技术来帮助发现其大量用户的使用习惯。值得一提的是,在《MIT科技评论》评选的2020年十大突破性技术中,差分隐私榜上有名。但是,由于差分隐私是一项仍在探索中的技术。门槛高,所以投入成本也想高。加工过程对人力资源的需求很大,同时也带来了新的问题。多人的介入与隐私保护也会存在一定的冲突。为了解决这个问题,市场上一些公司注入了自动化机器学习的方法。显然,隐私保护问题的解决必须是多学科、多技术流派的融合。唯一不变的就是变化。“安全是一个动态的话题”是陈词滥调,数据隐私安全也是。匿名数据只是为当前数据裸奔问题提供了一个相对清晰可行的解决方案,并不是绝对安全的保护屏障。我们能做的就是随着变化而变化,甚至走在变化的前面。
