当前位置: 首页 > 科技赋能

大数据环境下如何保护用户隐私

时间:2024-05-22 15:54:11 科技赋能

随着互联网技术的飞速发展,整个社会被强行推入“大数据”时代。

无论人们是否愿意,我们的个人数据都在不经意间被公司和个人被动收集和使用。

个人数据的网络化和透明化已成为不可阻挡的趋势。

过去,能够掌握大量公民个人数据的机构只有具有公权力的政府机构,但现在很多企业和某些个人也可以拥有海量数据,甚至在某些方面超越政府机构。

这些用户数据对于企业来说是宝贵的资源,因为他们可以通过数据挖掘和机器学习从中获取丰富的有价值的信息。

同时,用户数据也是一个危险的“潘多拉魔盒”。

一旦数据泄露,用户的隐私就会受到侵犯。

近年来,多起用户隐私泄露事件发生,公民个人隐私数据保护遭遇严峻挑战。

20世纪最著名的用户隐私泄露事件发生在美国马萨诸塞州。

20世纪90年代中期,国家保险委员会公布了政府雇员的医疗数据,以促进公共医学研究。

在数据发布之前,为了防止用户隐私泄露,组委会对数据进行了匿名化处理,即删除了姓名、身份证号、家庭住址等所有敏感信息。

然而,麻省理工学院的斯威尼成功破解了这些匿名医疗数据,并能够确定特定个人的医疗记录。

尽管所有敏感信息都从匿名医疗数据中删除,但仍保留了三个关键字段:性别、出生日期和邮政编码。

斯威尼还拥有马萨诸塞州选民(包括那些受到攻击的选民)的公开名单,其中包括选民姓名、性别、出生日期、地址和邮政编码等个人信息。

她对两条数据进行了比对,发现匿名医疗数据中与受害人生日相同的人只有少数,与受害人性别、邮政编码相同的人就更少了。

由此,斯威尼能够确定受害者的医疗记录。

斯威尼进一步研究发现,87%的美国人拥有独特的性别、出生日期和邮政编码三联体信息,同时发布几乎相当于直接披露。

2016年,AOL公布了三个月内超过65万用户的搜索记录,以推动搜索技术的研究。

AOL 还对发布的数据进行匿名处理,用随机数替换用户的帐号。

随后,《纽约时报》成功对部分数据进行了去匿名化,并泄露了其中一名用户的真实身份。

这起隐私泄露事件引起了广泛关注,AOL也因此事件在北加州地方法院被起诉。

美国公司Netflix曾举办推荐系统算法竞赛,发布了一些“匿名”的用户影评数据供参赛者测试,同时只保留每个用户对电影的评分以及评分的时间戳。

然而,德克萨斯大学奥斯汀分校的两名研究人员利用公共互联网电影数据库(IMDB)的用户评论数据,获取了 IMDB 用户的信息,这些信息不亚于 Netflix 上的所有电影观看信息(包括涉及敏感主题的电影) 。

为此,Netflix被四名用户起诉,不得不取消比赛。

除了上述几起著名的用户隐私泄露事件外,大数据带来的整体变化使得个人用户难以抵御个人隐私被充分暴露的风险。

谷歌著名的街景服务引发了许多摄影主体的投诉,他们要求谷歌屏蔽街景图像中自己家或商店的图像,但模糊的阴影与周围的场景形成鲜明对比,促使一些歹徒寻找提示“这里没有银子300两”,按照图片闯入民宅。

与此同时,传统线下企业的数据保护手段已经失效。

只要用户使用智能手机、在线购物或参与社交媒体互动,他们就必须将个人数据的所有权转移给服务提供商。

更为复杂的是,经过多次交易和多个第三方渠道的介入,个人数据权利的边界已经消失或变得模糊,公民个人隐私保护遭遇严峻挑战。

面对频发的隐私泄露问题,隐私保护问题亟待有效解决。

解决方案包括:制定法律法规、研发技术方法、规范管理措施。

在法律法规方面,欧洲和美国早在20世纪70年代就有专门的隐私保护法。

香港在回归前制定并实施个人资料法规。

该法规于 2017 年颁布,并于 2018 年 12 月 20 日生效。

该法规的执行由个人数据隐私专员监督。

该条例对个人、企业、公共机构和政府部门使用与在世人有关的数据(如果该数据能够有效识别在世人)进行管辖。

香港的PDPO法规主要强调数据保护的六项原则:个人数据收集的目的和方法、个人数据的准确性和数据保留时间、个人数据的使用、个人数据的安全、信息的基本和有效的可用性、个人数据的访问。

我国大陆虽然没有专门的隐私保护法,但涉及隐私保护的多部法律法规,为个人隐私的保护提供了间接的、原则性的规定。

例如,《中华人民共和国宪法》第三十八条、第三十九条、第四十条明确了对公民人格尊严、居住、通讯自由、通讯秘密的保护。

这是我国法律保护隐私权的最重要方面。

基本依据;第三十八条规定:“中华人民共和国公民的人格尊严不受侵犯。

禁止以任何方式侮辱、诽谤、诬告公民。

”第三十九条规定:“中华人民共和国公民的公民住宅不受侵犯。

禁止非法搜查、非法侵入公民的住宅。

”第四十条规定:“中华人民共和国公民的通信自由和通信秘密受法律保护,但为国家安全或者侦查刑事犯罪所必需的除外。

”公安机关或者检察机关依照法律规定的程序向人民法院提起诉讼,任何组织或者个人不得以任何理由侵犯公民的通讯自由和通讯秘密。

”《中华人民共和国合同法》第六十条第二款规定:“当事人应当遵循诚实信用原则,根据合同的性质、目的和交易习惯,履行通知、协助、保密等义务。

”第六十条还规定:“当事人应当按照约定全面履行义务。

当事人应当遵循诚实信用原则,根据合同的性质、目的和交易习惯,履行告知、协助、保密等义务。

”最高人民法院第《关于贯彻执行若干问题的意见(试行)》条:“任何人公开以书面、口头形式侵犯他人隐私,或者捏造事实公然丑化他人人格,或者利用侮辱、诽谤等方式损害他人名誉,造成一定影响的,均属于侵权行为。

”的声誉。

” 《侵权责任法》第三十六条:“互联网用户、网络服务提供者利用互联网侵犯他人民事权益的,应当承担侵权责任……”。

《中华人民共和国刑法》第253条之一:“国家机关或者金融、电信、交通、教育、医疗等单位的工作人员违反国家规定,使用本单位在履行职责过程中获取的公民个人信息或者提供服务。

出售或者非法向他人提供个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金。

窃取、非法获取上述信息,情节严重的,依照前款的规定处罚。

“单位犯前两款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各款的规定处罚”等。

这些法律规定意义重大对于保护公民隐私权具有重要意义。

在技??术方面,隐私保护的研究领域主要集中在基于数据篡改的技术、基于数据加密的技术和基于限制发布的技术。

基于数据失真的技术在保持某些数据或数据属性不变的情况下,通过添加噪声等方法对敏感数据进行失真,但仍能保持某些统计特性。

包括随机化,即在原始数据中加入随机噪声,然后发布扰动数据的方法;二是阻塞和聚合。

分块是指不发布某些特定数据的方法,聚合是指将原始数据记录分组以存储统计信息。

方法;第三类是差异化隐私保护。

基于数据加密的技术利用加密技术隐藏数据挖掘过程中的敏感数据,包括安全多方计算(SMC)。

即使两个或多个站点通过某种协议完成计算后,每一方也只知道自己的输入数据和所有数据计算后的最终结果;它还包括分布式匿名化,即保证站点数据隐私,收集足够的信息以实现最大限度利用的数据匿名,选择性地发布原始数据,不发布,或基于限制发布的技术以相对较高的准确性发布。

低敏感数据实现隐私保护。

目前此类技术的研究重点是“数据匿名化”,以确保敏感数据和隐私泄露的风险在可承受的范围内。

包括K-匿名性、L-多样性、T-封闭性。

最早被广泛认可的隐私保护模型是k-匿名,由Samarati和Sweeney于2001年提出。

作者是马萨诸塞州医疗数据隐私泄露事件的攻击者。

为了应对去匿名化攻击,k-匿名性要求发布数据中的每条记录必须与至少 k-1 个其他记录无法区分(称为等价类)。

当攻击者获得k个匿名数据时,他将获得至少k个不同人的记录,从而无法做出准确的判断。

参数k代表隐私保护的强度。

k值越大,隐私保护强度越强,但丢失的信息越多,数据的可用性越低。

然而,美国康奈尔大学的Machanavajjhala等人在2016年发现了k-匿名的缺陷,即对敏感属性没有限制。

攻击者可以利用背景知识攻击、重识别攻击、一致性攻击等方法来确认敏感属性。

数据与个人之间的关系导致隐私泄露。

例如,如果攻击者获得的k-匿名数据处于被攻击者都是艾滋病患者的等价类中,那么攻击者就可以很容易判断出被攻击者一定患有艾滋病(上面是一致性攻击原理)。

为了防止一致性攻击,新的隐私保护模型l-diversity改进了k-匿名性,以确保任何等价类中的敏感属性至少具有l个不同的值。

基于l-多样性,t-紧密度要求敏感属性在所有等价类中的分布尽可能接近属性的全局分布。

(a,k)-匿名原则,在k-匿名的基础上,进一步保证每个等价类中与任意敏感属性值相关的记录的百分比不高于a。

但上述隐私保护模式仍然存在缺陷,需要不断完善。

与此同时,新的攻击手段不断涌现,使得基于k-匿名的传统隐私保护模型陷入这样的死循环。

从根本上来说,传统隐私保护模型的缺陷在于它对攻击者的背景知识和攻击模型做出了过多的假设。

然而,这些假设在现实中往往并不完全正确,因此攻击者总能找到各种攻击方式进行攻击。

直到差分隐私的出现,这个问题才得到较好的解决。

差分隐私(DP)是微软研究院的Dwork在2016年提出的一种新的隐私保护模型。

该方法可以解决传统隐私保护模型的两大缺点:(1)它定义了相当严格的攻击模型,并且不关心攻击的多少攻击者拥有的背景知识,即使攻击者掌握了除某一条记录之外的所有记录信息(即最大背景知识假设),该记录的隐私性也无法被泄露; (2)对隐私保护水平给出了严格的定义和量化的评估方法。

正是由于差分隐私的诸多优点,它一出现就迅速取代了传统的隐私保护模型,成为当前隐私研究的热点,并受到理论计算机科学、数据库、数据科学等多个领域的关注。

采矿和机器学习。

在管理领域,我国各部门也在制定一些保护隐私信息的强制性管理措施。

总之,大数据时代的隐私保护不可避免,需要采取并严格遵循切实可行的法律、技术和管理措施。

同时,广大公众也应养成保护个人隐私信息的意识和习惯,运用技术和法律手段维护自己的合法权益。