对于个人电子产品,如手机、平板电脑、便携电脑等,或多或少都涉及到隐私计算,那么什么是隐私计算呢?要理解隐私计算,首先要明确“隐私”的概念。那么,什么是隐私?进一步明确隐私计算与隐私和计算的关系,即隐私计算是以实现个人隐私保护为目的的计算还是在实现隐私保护的前提下计算?最后是隐私计算涉及的技术和方法。1.什么是隐私?“隐私”一词最早出现在中国是在周朝初年,但当时的含义与现代有些不同。当时的“隐私”是指衣服,也就是遮住隐私部位的东西。现在,隐私一般是指个人的私事或秘密,不想公开。隐私由“阴”和“私”二字组成。在汉语中,“阴”是隐藏和隐藏的意思。《荀子·王制》中有句“故近者不隐其能,远者不劳其劳”,“隐藏”表示不公开。“隐私”是个人的,属于自己的。《诗·小雅·大田》中有“雨我公地,而后达我私”。英语中privacy一词为“privacy”,在牛津词典中解释为一种独处、隐秘、不受公众干涉的状态,与中文基本意思相同。但中文“privacy”强调隐私的主观色彩,而英文“privacy”则更注重隐私的客观性,体现了东西方文明的差异。一般来说,隐私可分为身体隐私、行为隐私、身份隐私、名誉隐私、肖像隐私、个人收入隐私和个人经历隐私。隐私权的主体是自然人,客体是自然人的个人事务、个人信息和个人领域,其目的是特定个人不希望他人发现或干涉其事务、信息或领域。在IT领域,隐私是一个抽象的概念,不能代替具体的事物或人的行为,而是它们所反映的信息。也就是说,隐私本质上是一种信息,一种隐私的、不想被别人知道和干涉的信息。如电子邮件、即时通讯内容等,这些工具本身不属于隐私,但其中记录和反映的信息才是隐私。2、什么是隐私保护?隐私保护本来是一种个人行为,提高个人安全。根本原因在于私有数据所有权和使用权的分离。例如,姓名和性别对大多数人来说是公共属性,他们往往愿意透露这些信息,而不是隐私。在某些情况下,个人的年龄、身高和体重可能是私人数据。但有时也需要公开。例如,看病时,医生需要了解病人的身体和心理细节。如果需要咨询,这些私人数据也会被发布给一组医生,他们需要使用这些数据来诊断疾病。换句话说,个人隐私数据可能需要提供给某些群体,所有权和使用权是分离的,因此需要保护它不被不必要的人看到。这些群体可能有意无意地传播个人隐私数据,甚至造成滥用,可能对个人生活造成负面影响,因此需要隐私保护。保护隐私的直观方法是不透露任何内容,但这几乎是不切实际的。隐私的概念随着时间的推移而演变。有人提出隐私不能进数据库,即从数据库中无法得知个人的任何信息,也有人强调个人隐私可视为“隐于人群”。更一般地说,信息收集和传播应适用于确定的情景,并遵守有关信息传播的规范。那么如何明确隐私保护中的场景呢?或者说,隐私保护的风险点是什么?3、隐私保护的风险点在隐私保护中,主要存在三个风险点:信息泄露、数据处理、隐私与实用的矛盾。这里还是以看病的场景为例。医院使用数据库来保存患者的记录,数据库由多个表组成,存储患者的个人信息、病史和医院要求的其他详细信息,如身份证号码、姓名、种族、性别、家庭住址、婚姻状况和诊断的疾病等。它包括个人身份信息和有关特定事务的信息,均涉及隐私数据。这些数据极其重要,是医疗服务的基础。除了记录治疗结果外,它们还可以用于研究和提高药物疗效、监测和限制疾病传播等。然而,未经授权披露医疗数据可能会侵犯患者隐私,而此类侵犯行为可能会产生经济、情感和社会后果。例如,披露某些疾病会严重影响患者过正常生活的能力。信用卡信息等个人数据的泄露可能导致欺诈性在线支付。因此,数据安全和隐私至关重要。如果隐私提供一个移动应用程序让患者填写个人信息,那么个人信息安全吗?为什么要收集有关您的状况的信息以外的信息?谁可以访问这些数据?如果医院与第三方共享这些数据怎么办?3.1信息泄露风险在任何数据集中,个人信息泄露都是密切相关的,按严重程度排序如下:另一条消息。由于风险被定义为“披露的可能性”乘以“披露的影响”,因此如果披露确实发生,这些披露中的任何一项都可能比其他两项造成更大的风险,具体取决于整体情况。以医院为例,关系资质的公开相当于公开一个人是某医院的患者,敏感属性的公开相当于公开一个人患有某种疾病,身份信息的公开相当于公开了一个人的身份信息。在目前的新冠信息披露中,一般不包括身份信息的披露。医院作为授权用户,应该有足够的安全控制措施来防止未经授权的用户访问数据,从而保护个人数据和个人隐私。即便如此,并非医院的每位医生都可以访问所有个人数据。在考虑泄露风险时,需要注意的是,面向安全时,用户和攻击者的假设是不同的,而面向隐私时,合法用户也可能是攻击者,许多城堡都是从内部被攻破的。为了安全,可以通过安全控制来减轻未经授权用户的恶意意图,而为了隐私,需要一组不同的控制。因此,一个好的安全框架不足以保证隐私。3.2数据处理风险为了降低信息泄露风险,是否可以删除个人身份信息?不能物理移除个人身份信息,否则无法实现目标业务逻辑。实际上,删除可以实现为“用虚拟值替换”以满足数据库或应用程序的约束和要求。这似乎是一个很有前途的解决方案,因为数据集中可能的成员资格和身份都没有显示。这能保护个人隐私吗?不幸的是,事实并非如此,因为在数据处理过程中,大多数数据对象都可以通过这种替代关系的“联系”来识别。因此,简单地删除个人身份信息并不能保证隐私。敏感数据进一步清洗会有风险吗?一般来说,关系资格数据对于个人隐私可能没有那么重要。比如,我可能不介意我是友谊医院的病人,但我会介意去医院看什么病。为了克服这个问题,对敏感值进行逐列重组似乎是一种可能的解决方案。然而,这并没有多大帮助,因为即使值乱序,它们的分布仍然是相同的,这可能足以推断出有关个人的敏感数据,尤其是当数据分布不均匀时。如果一切都被删除怎么办?用接近原始数据的合成数据替换所有记录可以保护隐私,因为数据不指向现实世界中的任何个人。合成数据保留了原始数据的结构和特征。使用生成对抗网络(GAN)等技术,现在可以生成具有真实数据属性的合成数据。但它的局限性是损失了所得结果的准确性,因此该方法不适用于某些应用。例如,在医疗场景中,用于癌细胞预测的机器学习模型需要非常高的准确度和精确度。在这种情况下,仅依赖综合生成的数据可能会产生不同的漏洞。3.3隐私和效用矛盾隐私和效用是矛盾的,向授权用户提供数据访问是有利的。隐私的挑战是在完全公开的数据和完全保留的数据之间找到平衡。当原始数据完全共享时,它具有最大的效用,但隐私最少;当不公开任何信息时,它具有最大的隐私性但实用性有限。正如百度罗宾所说,“用户在一定程度上愿意用隐私来换取便捷和效率”。虽然被无数人黑过,但他也只是将事情的真相说了出来。理想的解决方案是最大限度地提高隐私和实用性。由于隐私和实用性要求相互冲突,这非常具有挑战性。这就要求我们在隐私性和实用性之间取得平衡,利用技术手段在特定环境下共享有用的个人数据,防止侵犯个人隐私。那么,有哪些不同的隐私保护技术呢?这些在实践中是如何应用的?4.隐私保护技术4.1匿名技术随机化、数据乱序化、数据变换等传统方法已经能够在一定程度上保护隐私,但数据泄露的风险依然存在。匿名是一种克服传统方法局限性的隐私保护技术。匿名技术实际上使一个人“从所有人中消失”。那么,有多少人是“人”呢?这就是k-anonymization技术背后的思想,让k条记录在数据集中看起来很相似,即每个人的隐私数据都隐藏在k条相似的记录中。如果有关一个人的信息无法与k-1个信息也出现在数据中的个人区分开来,则已发布的数据具有k匿名性。k匿名化技术降低了链接攻击的风险。标识符的转换可以通过泛化和抑制等技术实现。为了抑制,一个属性的部分或全部值可以用*代替。为了泛化,属性的单个值被表示更广泛范围或类别的值替换。例如,许多网络应用程序在显示用户手机号码时使用“*”替换号码中的中间4位数字。更高的通用性允许更多的记录被映射,从而实现更高级别的隐私,尽管这可能会显着影响数据效用。此外,对属性使用单一策略来概括所有记录可能不是最佳策略。这种保护隐私的数据转换称为重新编码。在全局编码中,特定的细节值必须映射到所有记录中的相同公共值。本地编码允许将相同的详细值映射到每个匿名组中的不同公共值。虽然数据的k-匿名化可以防止链接攻击,攻击者无法高度确定地链接到其他数据库,但它仍然可能泄露敏感信息。这被称为同质性攻击,其中所有k个个体都具有相同的敏感度值。同样,如果攻击者拥有关于某个人的额外信息,则该记录很有可能会被重新识别,从而导致背景知识攻击。因此,k-anonymity不提供任何针对此类攻击的科学保证。能不能通过修改最少的数据量来实现最优的k-匿名?对于多维数据,实现最优k-匿名性是一个NP-hard问题。此外,选择k作为k可接受的匿名级别提出了另一个挑战。为了实现k-匿名,信息在记录的泛化或抑制过程中丢失,泛化越高,效用越低。为了克服这些缺点,已经提出了不同的k-匿名化技术。L-diversity就是这样一种变体,其中任何敏感属性在每个种群中都应该有l个不同的值。这确保敏感属性得到很好的表示,但它也涉及抑制或添加可能改变数据分布的内容。这种抑制或添加引起了人们对从数据集中得出的统计结论的有效性的担忧,即敏感属性在任何k个子集中的分布不仅是l-多样性,而且与整个数据集中的属性分布接近。此外,这两个分布之间的距离由阈值t测量。数据的维度仍然是一个挑战,对于时间序列这样的高维数据,很难提供与低维数据相同的隐私保护。匿名技术已经在很多隐私敏感数据发布场景中实现,其应用范围已经从关系型数据库扩展到图等匿名复合结构。本节讨论k-匿名的选择、发布匿名数据的一些实际问题、准标识符、实现所需匿名的理想泛化量,以及如何有效地进行k-匿名。4.1.1K的正确选择在美国,《健康保险流通与责任法案》为保护敏感患者数据制定了标准,将20,000定义为k的标准值,代表k的匿名性。《家庭教育权利和隐私法》为保护学生及其家人的个人信息设定了标准。建议k的值为5或10以防止泄露。这表明k的选择不同。K的选择是根据这些管理授权为应用程序预定义的。然而,对于没有监管要求的应用程序,选择k以提供正确的隐私级别与效用权衡是一个挑战。选择k的一种方法是在一定范围内改变k的值,并确定数据集的广义信息损失(效用度量)的变化。因此,对应于可接受的广义信息损失的k值是一个合适的选择。尽管如此,找到k的最优值仍然是一个悬而未决的问题,目前的研究包括概率模型和多目标优化模型等。近似算法可以实现k-匿名,但不能扩展。另一方面,概率方法k-匿名技术提供了一种使用动态规划的时间最优k-匿名算法。启发式也可以产生有效的结果。目前的重点是人工智能驱动的分析,然而,隐私和数据保护的定义已经明显改变,表明需要更强大的保障措施和更广泛的不同应用范围。4.1.2准标识符的识别准标识符的识别是一个重大问题,因为它直接影响k-匿名技术的有效性。如果可以识别可变属性集的记录数,则可变属性集可能是潜在的准标识符。随着信息的增加,大量记录可能变得可识别。随着数据维度的增加,准标识符的选择变得更加复杂。由于其他人发布的额外数据的不确定性,这个问题也变得更具挑战性。在这种情况下,一些已发布的属性必须被视为准标识符。4.1.3实现理想匿名化的理想泛化量理想的泛化量取决于公开可用的信息。一些组织在公共领域发布信息以实现更大的透明度并使其数据更易于访问。这些组织可能会无意中发布不应公开的信息。这为私人聚合提供了滥用此类信息的机会。因此,发布个人数据的组织必须采用极端的泛化方法来防止通过链接攻击进行重新识别。链接攻击表明,简单地删除标识符并不能保护隐私。因此,k-匿名成为一种突出的隐私保护技术。在这里,泛化是对真实信息进行的,这使得它比其他策略更容易被接受。此外,k-匿名及其变体可以限制链接、同质性和后台攻击。从工业的角度来看,k-匿名已经获得了更广泛的普及。匿名技术确实有一些缺点,例如信息丢失。此外,泛化需要为数据集中的每个准标识符构建分类树,这需要领域专家的干预,即使分类是自动生成的。此外,根据用例,每个属性的泛化级别可能会有所不同。随着计算能力的提高和数字数据集的可用性,个人数据被重新识别的风险仍然存在。4.2差分隐私技术假设在共享数据之前,注入一些噪声,或者创建一个与原始数据集具有相同统计特性的合成数据集。那么,很有可能可以保护隐私。差分隐私技术是一种通过注入经过仔细校准的随机噪声使数据不真实来保护个人隐私的技术。差分隐私技术的巧妙之处在于允许从数据集中提取有意义的分析,同时保护个人隐私。然而,它的局限性在于,如果不直接访问数据集,就很难了解有关个人的任何信息。在典型的差分隐私技术中,数据管理员被认为是值得信赖的,并且充当持有构成数据集的个人数据的中心主体。使用受信任的管理员,差分隐私技术可以在两种模式之一中运行:在线或交互模式或离线非交互模式。在在线交互模式下,数据分析师自适应查询数据集。查询是应用于数据集的函数。每个查询都会产生不相关的响应,从而保护隐私。在离线非交互模式下,管理员使用差分隐私机制生成一个与原始数据集具有相同统计属性的合成数据库。数据发布后,v不再发挥任何作用,甚至可能破坏原有数据。因此,使用合成数据库重新识别个人变得困难。此外,可以共享此类合成数据以进行质量分析。4.2.1差分隐私技术的原理考虑一种分析数据集并计算统计属性(例如均值、方差、中位数和众数)的算法。如果通过查看输出无法判断原始数据集中是否包含任何个人数据,则该算法称为差分隐私算法。换句话说,差分隐私算法的保证是它的行为几乎不会随着数据集中个人的存在或不存在而改变。最值得注意的是,此保证适用于任何个人和任何数据集。因此,无论个人的详细信息多么独特,也无论数据集中其他任何人的详细信息多么独特,差异隐私技术的保证仍然有效。在数学上,差分隐私算法可以定义如下:如果对于所有数据集,D1和D2至多有一个元素不同,且所有S都是Range(M)的子集,则在随机函数中得到ε的差分隐私米。因此:Pr[M(D1)εS]≤exp(ε)xPr[M(D2)εS]数据集D1中管理员输出的M(D1)的分布与数据集中的M(D2)几乎相同D2同理,数据集D1和D2只有一条个体记录不同,M是一种保证ε差分隐私的随机化算法:ε决定了两个数据集D1和D2的不可区分性,即查询响应对两个数据库集的偏差由ε决定。这保证不会泄露有关数据集中参与者的个人信息。差分隐私技术避免了关系资质数据,也使得其他信息泄露风险难以发生。差分隐私技术的关键特征是它将隐私定义为使用参数ε的可量化度量,而不是个人数据是否泄露等二元逻辑。本质上,ε决定了在计算中添加了多少噪声,因此它可以被认为是平衡隐私和实用性的调节旋钮。可以调整每个不同的隐私分析以提供或多或少的隐私。4.2.2差分隐私技术的实现差分隐私算法是一种在关键点加入噪声的随机算法。在实现上,拉普拉斯机制可以使聚合查询(如count、sum、means等)具有不同的隐私性。该方法使用以0为中心、缩放比例为1/ε的拉普拉斯概率分布对随机噪声进行采样,通过将实际值相加获得的噪声扰动产生掩蔽响应。仍然以医院场景为例,假设医院持有通过医疗应用程序收集的癌症患者数据。现在,如果医生想知道John是否是癌症患者,他可以通过设计多个查询来实现。例如,如果使用COUNT查询,结果为30,如果排除John的第二次计数查询为29,则可以断定John是癌症患者。如果第二次COUNT查询的结果是30,则会得出相反的结论。有很多相关算法的机制可以替代拉普拉斯机制,例如指数机制、私有倍增权重算法或倍增权重指数算法等。有了这样的机制,基于差分隐私技术的软件系统是可能的,但是实际挑战依然存在。例如,如果相同的查询总是收到相同的嘈杂响应,则需要查找历史响应的日志。由于答案保持不变,因此不会发生信息泄漏,但日志查找在空间和时间方面可能会很昂贵。4.2.3差分隐私技术的局限性众所周知,建立两个查询的等价性在计算上是困难的。因此,虽然差分隐私技术与传统的隐私保护方法相比具有一定的优势,但也存在一定的局限性。首先,在保护隐私的同时确定具有高效用的理想隐私损失参数ε仍然是一个挑战。其次,差分隐私技术中的隐私保证仅适用于有限数量的查询,这是数据集中表示的不同数据量的函数。因此,设计一种可以处理任意数量查询的隐私保护机制也是一个挑战。此外,差分隐私技术容易受到边信道攻击,在这种攻击中,对手通过监视边信道来了解有关数据的事实。一个典型的例子是定时信道攻击。如果一个人患有癌症,则查询计算将花费51微秒,否则将花费49微秒。那么,仅仅通过观察花费的时间就可以知道一个人是否患有癌症。最后,敏感数据仍有可能被公开,例如,不良行为者可以在私有数据集上构建分类器来预测敏感信息。以上讨论的前提是数据管理者是可信的。如果数据管理员不可信,这就需要使用本地差分隐私技术。也就是说,噪声是局部注入的,噪声注入是在每个数据主体的个体层面实现的,这样隐私控制就留给了数据主体。此外,通过GDPR等隐私法规,大型组织使用原生差分隐私技术来避免因滥用存储敏感用户数据而承担的责任。因此,基于信任假设,局部差分隐私技术更具吸引力。然而,使用局部差分隐私技术发布的统计信息的效用比使用标准差分隐私技术发布的统计信息差,因为扰动发生在每个个体的末端,导致更大的噪声添加。4.2.4差分隐私技术的应用差分隐私技术在许多应用领域都有更广泛的应用,包括物理网络系统,如智能电网系统、医疗保健系统、物联网、自动驾驶汽车系统等。在智能电网系统中,电力供应商使用智能电表来记录和维护家庭能源消耗信息。这些信息可以揭示一个家庭的生活方式和其他细节,滥用可能会侵犯消费者的隐私。因此,有必要将隐私保护技术结合到此类系统中。同样,对于医疗保健和医疗系统,物联网设备收集的数据(例如血压、血糖水平,有时甚至是位置节点)也需要以保护隐私的方式进行捕获。在各种应用服务中,微软使用原生的差分隐私技术来保护Windows应用中的用户隐私。Apple同样使用该技术在给定的时间段内将用户的活动保密,同时仍然可以访问有助于使QuickType等功能更智能、更易用的数据。在谷歌的Chrome中,有关软件如何劫持用户设置的数据是以隐私敏感的方式获取的。此外,IBM和Google都提供了以差异化隐私感知方式执行机器学习任务的库。有了差分隐私技术,隐私数据是否得到充分保护?这取决于ε。当ε≤1时,差分隐私技术输出的数据效用可能较差。解决这个问题的一种方法是使用非常大的ε值来缓解效用问题。据报道,Apple在MacOS中使用ε=6,甚至在iOS10beta版本中使用ε=43,而谷歌在chrome中使用ε=9。这表明差分隐私技术在实践中的适用性仍然是一个挑战,因为如此大的ε=9值使得隐私保证大大降低。对数据隐私的需求已经从数据发布的标准用例扩展到隐私驱动的分析。在这里,DP获得了极大的关注,因为它提供了数学保证。然而,将DP理论映射到实践中存在一些挑战。4.2.5实践中的挑战理想的差分隐私技术应该能够减轻泄露敏感数据的威胁和风险,同时保持数据的高可用性。对隐私的要求总是取决于具体的场景。当数据控制者是可信实体时,可以使用标准差分隐私技术;如果数据控制器不受信任,则可以使用本地差分隐私技术。在这两种情况下,不同的机制可以防止恶意数据分析师泄露敏感信息。因此,可以根据用例及其对隐私和应用的要求,选择合适的差分隐私技术设置。没有一种通用机制对所有用例都有效。拉普拉斯机制只能用于数字查询,而指数机制可以处理查询中的数字和分类数据。因此,该机制的适用性取决于用例和数据类型。也就是说,许多差分隐私算法只适用于特定的用例。ε的值可用于确定隐私级别。ε的值越小,隐私性越好,但可能会影响结果的准确性。从隐私的角度来看,ε大于6可能不太好。虽然这确实是一个很好的目标,但考虑到用例的细微差别,通常不可能实现。此外,ε的选择可能因应用程序而异,具体取决于该场景中的隐私需求。一般来说,像“ε的适当值是多少”这样的问题与“多少隐私才足够”一样无法回答。隐私数据的丢失会累积增加,并且对于每个新查询,随着有关敏感数据的附加信息的发布,隐私保护会降低。这意味着在一定数量的查询之后,应用程序可能无法提供隐私保护。理想情况下,对于强大的隐私保证,隐私损失应该很小。因此,为了减轻不断增长的隐私损失,可以强制执行由隐私预算表示的最大隐私损失。每个查询都可以被认为是私有的
