众所周知,深度学习模型的特征是:数据越多,模型性能越强。因此,为了获得更好的工业模型,该公司通常在训练模型以确保模型以确保模型的性能时收集到同样多的数据。这些数据通常由用户收集。例如,公司在互联网上购物的各种点击量可能由公司用于培训推荐系统模型。
随着人们的隐私意识的提高,这种未准备好使用其行为数据的现象引起了人们对自己的数据隐私的关注。受到隐私保护。但是,如果医院可以训练大量的医疗数据来训练更好的医疗诊断模型,它可以为患者带来更准确的医疗解决方案。在这里是一个权衡:我们如何使用足够的数据来训练机器学习模型以提高其性能并确保用户的隐私不侵犯?
本文探讨了机器学习的隐私保护。第一部分,我们在数据分析中讨论了隐私的定义,并解释了差异隐私的基本知识。第二部分解释了如何使用差异隐私训练机器学习模型。
通常使用隐私的概念,但是很少有人可以给出数据隐私的特定定义。我们经常说隐私,但是很难准确地定义什么是隐私。我们必须首先在数据上下文中定义隐私的实际含义分析。现有的工作无法找到隐私的定义,以便它可以满足用户的要求和实用性。下面介绍了早期隐私保护概念的某些概念。
保护隐私的数据集的最直接方法是匿名的,也就是说,删除数据集的识别信息。人们。但是,匿名不是隐私保护的有效手段,因为即使您删除了一些敏感信息,也可以使用其余信息来唯一地识别某个用户。它就像数据库中的表格一样。该表具有主键和外部键。它只是删除主键并保留外键。攻击者仍然可以识别与每个数据相对应的用户信息。,您只能识别某人。
这也导致数据链接攻击的概念。DATA链接攻击意味着,通过现有的不可言喻的数据集,与匿名数据集链接以识别隐藏在匿名数据集中的信息。这就像删除表的主要键并保留了表外键。攻击者可以将外键与表所在的表连接起来,以恢复原始表的信息。
数据链接攻击已成功成功,该攻击于1997年发生在马萨诸塞州州长威廉·韦尔德(William Weld)。有些人跨越公共选民的匿名记录与公共选民的名册联系,以实现健康记录信息的匿名。找到了哪个作品?记录属于沃尔德州长。这是数据链接攻击的一个示例,其中与其他信息源的连接可以匿名数据集。
防止链接攻击的一种方法是k-nonymous。k-匿名指的是:对于数据浓度中的任何记录,我们都选择了其中的任何特征,并且总有K-1记录。本节中的值是sameanyone的记录,至少K-1其他记录不能与之区分,说数据集是k-nonymous。因此,如果数据集是匿名的,则链接攻击可以做什么确定属于攻击对象的k条的信息记录。
不幸的是,K匿名本身的存储价格非常高,并且通常需要大量数据来实现数据集的k匿名。K-Anonymous适用于非常大的数据集,并且每个记录仅具有少量(功能).inlea,越多的字段(特征),每个字段的值越多,记录的记录越高,确保存在K均衡记录的困难就越困难。
另一个解决方案不是发布数据。我们假设有一个受信任的第三方不会滥用我们的数据。因此,我们将安全地将显式数据传输到受信任的方面。数据分析师通过提高可靠的第三方数据来获取信息。有一个问题。我们如何确保可信赖的一方的答案不会泄露这些查询的私人信息?一种方法是允许简单的查询,例如计数。此外,只能在查询集大小中返回答案。
不幸的是,该方案很容易受到差分攻击的攻击。可以确定张圣烟是否吸烟。
在上一节中,我们发现简单的数据隐私方法很容易受到攻击。因此,是否有任何保护隐私的方法?实际上,早期对隐私保护的定义本身具有缺陷。在早期,隐私保护是指发布数据时无法理解任何个人信息。此定义需要了解在观察之前发布数据的人。但是,如果您无法获得任何新事物从已发布的数据中,已发布的数据中必须没有可用的信息。
当数据分析和理解隐私时,就会出现一个关键问题。数据分析需要从数据中提取可用信息。如果数据分析师无法从已发布的数据中学习,则无法执行有用的数据分析。但是,对于任何不完全破坏信息的查询机制,获得足够的查询访问权限的攻击者始终可以重建数据集。这是“信息恢复的基本规则”。因此,如果要从数据集中提取有用的信息,数据的隐私将始终有风险。
从本隐私保护的角度来看,隐私保护技术的目标现在正在量化并限制丢失了多少隐私。结果,出现了差异隐私技术。
假设有人在回答他是否有援助的问题。单个用户的隐私概念是确保收集他们的数据,并且将来会忽略他们所带来的影响。正如我们已经看到的那样,绝对隐私本质上是不可能,因此我们从概率的角度开始,以确保隐私泄漏的可能性很小。这也由差异隐私(DP)提供。
差异隐私是基于随机响应方法。随机响应的关键思想是引入一种随机机制,提供合理的拒绝。考虑调查并询问人们是否逃税。调查结果的查询可能会泄露有关隐私信息的信息。一个人。但是,我们可以通过扔硬币来介绍随机性:在受访者回答之前扔硬币。如果结果为“正面”,请记录随机答案而不是真实答案。如果是相反的一面,则记录了真正的答案。在最后,可以形成不公正的估计,并且可以使用税收作弊的人的比例可用于使用调查结果。:记录的响应可能不是一个真正的答案,因此个人隐私受到保护。
在此示例中,一个参数是提供调查人员真实响应的可能性。如果真实响应的概率很大,那么对用户的隐私保护程度将减少。如果实际响应的概率很小,则隐私保护程度对于用户来说更大。此外,无论概率多么多,如果对某人进行了多次调查,即使他们的答案每次可能是随机的,他们收到的隐私保护将被降低。不同的隐私将被量化为个人对与随机概率和调查数量等因素有关的功能的隐私保护。
考虑到两个数据库d和d',两个数据库之间只有一个记录。有一个随机响应机制m [],输入参数是一个数据库并输出结果。如果任何一对d和d和D',m [d]和m [d']很难区分,我们说机制m []是一种差异隐私。
该定义是制定的:M []的机制是ε-差异隐私。
$ o operatorName {pr}(Mathrm {M} [Mathcal {d}] in Mathcal {s})leq exp [epsilon] operatoTorname {pr} left(mathrm {m {m {mthcal [mthcal {mthcal {d} ight]在数学{s}中 ight)$ $
$ epsilon $控制两个相邻数据库中随机机制输出的差异程度,并捕获在数据库上运行随机机制时丢失了多少隐私。$ epsilon $越小,隐私保护程度越好。
散射程度用于测量两个概率分布之间的差异程度。散射度越大,两个分布差异越大,散射度为0,表明两个分布是相同的。
因为随机机制m []的输出符合概率分布,所以m []是ε-差异隐私,只有:$ $ permatatorName {div}左[Mathcal {d}^prime} ight] ight] leq epsilon $ $ $,d和d'是相邻的数据库,也就是说,两个数据库之间只有一个数据不同。div[]代表无尽订单的无尽性。当随机机制m []时,应用于两个相邻数据集,结果之间的差异可能很大(如图1所示)。
先前对假设的讨论是:单个机制m []仅运行一次。信息?通过差异隐私机制的几种特征,我们可以将原始的单一机械场景提升为更复杂的场景
后处理:差异隐私机制不受后处理的影响,并且合并了任何差异隐私和任意功能的随机响应机制。获得的新功能仍然是差异隐私。形象性:如果机制m []为ε-dp,g()是一个任意函数,则g(m [])仍然是ε-dp。因此,差异隐私可以承受数据链接攻击
组合:差异私人机制在组合下关闭。如果我们在同一数据集上应用多种不同的机制(或多次使用相同的机制),则这些机制仍然不同于差异隐私,但是ε值会更改。,假设我们将K机理结合在一起,并且每个机制都符合ε-DP,则获得的总体机制至少为Kε-DP。结果,DP可以抵抗差异攻击。
后处理和组合津贴使我们能够将DP机制视为一般组件。任何大型差异隐私机制都可以组合在一起,同时,它仍然具有差异隐私。该组合可以保护隐私,因为组合中的DP机制增加,ε的价值将增加,并且随着DP机制的增加,隐私保护的性能将减少。如果组合中有太多的DP机制,则ε的值将变得太大,因此相邻数据库上随机机制之间的差异非常明显,并且无法产生隐私保护的效果。
原始:https://juejin.cn/post/71005170450268174