物联网会感知到大量的数据,感知到的数据通常需要发布和共享。然而,数据在发布和共享时面临着巨大的隐私泄露风险。随着数据挖掘技术的不断完善,受隐私保护的物联网数据中的敏感信息越来越容易被数据挖掘者获取。因此,如何保护发表数据的隐私成为新的研究热点。从根本上说,数据发布隐私保护是在发布数据的同时尽可能保护发布数据中的隐私信息。差分隐私是目前数据发布中隐私保护的标准。可以在数据发布过程中对原始数据进行处理,从而保护原始数据中的敏感信息。简单来说,差分隐私数据发布就是数据拥有者以某种形式向外界展示数据,并利用差分隐私技术保护数据中的隐私信息的过程。01差分隐私的概念差分隐私是当前数据发布隐私保护技术中具有较强理论保障和严格数学证明的隐私保护模型。差分隐私保护是一种对数据加入扰动保护的保护技术。它可以在不考虑攻击者背景知识的情况下,通过加入一定的规则噪声来保证数据集的统计特性不变。同时,它也保护了数据集。数据被保护后,方便研究人员对数据进行一些挖掘和统计工作,又不会泄露用户的隐私。差分隐私有严格的数学证明。这种机制可以保证数据被保护后输出结果的统计特性不受影响。攻击者无法判断用户是否在数据集中,因为使用差分隐私保护后的数据查询结果在形式上是不可区分的,因此不会泄露用户的个人隐私信息。差分隐私可以在数据库中添加或删除一条记录,使得攻击者在没有任何知识背景的情况下无法确定一条记录是否存在于被分析的数据库中。假设有一个数据表,如图1所示,数据是某医院的门诊病历,包括患者姓名、年龄、性别、临床诊断等信息,图1(a)是发布的直方图原始数据记录形式。如果攻击者想知道Cole的诊断并且有很强的背景知识,比如攻击者已经知道Cole是男性,年龄在60-80岁之间,以及其他人的临床诊断信息,那么攻击者将Cole的临床诊断信息能够推演,从而导致科尔的私人信息被泄露。差分隐私要解决的正是这种问题,即即使攻击者有任何背景知识,数据集中的隐私信息也不会被泄露。图1(b)为差分隐私技术处理后的直方图发布结果。从图中可以看出,即使攻击者知道60-80岁之间除了Cole之外所有人的信息,他也没有办法得到Cole的诊断信息。图1医院门诊病历(统计数据直方图发布)差分隐私:经典的差分隐私(DP)最初是一种基于数据集的隐私保护概念,可以为数据隐私的保护效果提供严格的信息论保证。DP以概率的形式描述了原始数据集的微小变化对最终统计输出的影响,并通过隐私参数£约束这种概率变化,达到隐私保护的目的。假设D是一个有n条记录和d个属性的数据集,假设变量r代表数据集中的一条记录。两个数据集D和D'是兄弟数据集,即如果它们具有相同的属性,只有一条记录不同,则令ri表示这条记录,Di表示第ri条记录的数据集,D-i表示第ri条记录的数据删除集,则差分隐私定义如下。ε-差分隐私:对于最多相差一条记录的两个数据集D和D′,Range(A)表示随机函数A的取值范围,Pr[Es]表示事件Es的泄露风险,若随机函数A提供ε-差分隐私保护,则对于所有S?Range(A),满足如下:如图2所示,该算法通过加入一些规则噪声实现差分隐私,同时保证在删除或添加某个记录时,查询的一些统计概率不会发生变化,从而保护用户之间的隐私信息。图2随机算法在相邻数据集上的输出概率(ε,δ)-差分隐私:对于最多相差一条记录的两个数据集D和D′,Range(A)表示一个随机数的取值范围函数K,Pr[Es]表示事件Es的泄露风险,若随机函数A提供(ε,δ)差分隐私保护,则对于所有S?Range(A),满足如下:其中,D和D'表示相邻数据集,根据相邻数据集的不同,差分隐私可以分为有界差分隐私(BoundedDifferentialPrivacy,BDP)和无界差分隐私(UnboundedDifferentialPrivacy,UDP)。在BDP中,D和D'是相邻的数据集,D可以通过替换D'中的一个实体得到。在UDP中,D和D'是相邻的数据集,可以通过在D'中增加或删除一个实体来得到D。BDP中相邻的数据集具有相同的大小,但UDP中没有这种限制。(ε,δ)-differentialprivacy是ε-differentialprivacy的放松版本,它允许通过参数δ将隐私侵犯的概率控制在一个很小的范围内。这种隐私保护的定义在ε-差分隐私带来过多噪声导致效用低下的场景下可以体现出明显的优势。差分隐私可以通过在查询操作中加入随机噪声来实现。这种增加的噪声是隐私参数ε的函数。此查询的属性称为敏感性。敏感度的类型会随着两个相邻数据库的查询结果而变化。大多数情况下,我们会将全局敏感度作为判断查询结果安全性的重要参数。ε表示隐私预算,是衡量隐私保护强度的参数。从上图可以看出,ε的值越小,算法的隐私保护程度越强。反之,隐私保护程度较弱。差分隐私保证无论数据库中的任何记录是否存在,都对算法的输出分布影响很小。相邻的数据集:如果D和D'是相邻的数据集,那么D可以通过从D'增删改一个数据元组得到。从上面的定义可以看出,对于任意两个相邻的数据集,它们输出相同结果的概率比之差在e-ε和eε之间;可见参数ε对控制隐私泄露量起着至关重要的作用。重要角色。基于DP的定义,学者们设计了一些符合要求的随机化机制;在相同的ε水平上,机制的设计和适用性将极大地影响隐私数据的可用性。GlobalSensitivity:对于给定的queryfunctionf:Dn→Rd,f的Lpglobalsensitivity定义为:GSf=maxD,D′||f(D)-f(D′)||p数据集DandThereD'之间至多为一个数据记录差。局部敏感度:对于给定的查询函数f:Dn→Rd,其中D∈Dn,D的Lp局部敏感度定义为:LSf(D)=maxD′||f(D)-f(D′)||p对于一些查询运算函数f,得到的Δf比较小。对于计数查询函数,Δf=1,该属性与查询函数有关,与数据集的属性无关。可以利用该属性对数据集进行Publishing操作,即对数据集进行多项函数操作,使数据集满足数据保护要求,一般采用拉普拉斯机制和指数机制进行差分隐私保护。差分隐私算法具有组合特性,即几个独立的满足差分隐私的算法组合得到的算法仍然满足差分隐私。差分隐私的组合特性保证了一系列差分隐私算法计算的隐私性。根据这一特性,可以获得以下性质。SequentialComposition:如果一个机制M由多个子机制组成,比如M=(M1,M2,...,Mn),其中Mi满足εi-差分隐私,那么机制M满足εi-差分隐私,其中并行构图(ParallelComposition)。如果数据库中每个不相交的子集Di满足机制Mi下的εi-差分隐私,则也满足机制Mi下的εi-差分隐私。02差分隐私保护模型差分隐私数据发布的保护模型主要有两种:交互保护模型和非交互保护模型。如图3所示,在交互保护模型下,数据拥有者根据实际需要设计满足差分隐私的数据发布算法A。当用户向服务器发送查询请求Q时,如果隐私预算没有耗尽,则返回用户的查询结果会通过差分隐私算法A加入一定的噪声,即用户得到的查询结果是加噪声后的答案,不是真正的答案。这种交互式保护模型具有时效性好的特点,可以及时更新数据库,实时返回查询结果。但是这种模型的问题是隐私预算消耗太快,需要用有限的隐私预算尽可能多地回答查询请求,这也涉及到如何为每个查询分配隐私预算。图3交互保护模型图4给出了差分隐私数据发布的非交互保护模型。数据拥有者首先使用差分隐私算法A对待发布数据进行隐私保护,然后形成一个新的合成数据库,该数据库具有与原数据库相似的统计特性。此时所有的用户查询和数据挖掘操??作都在合成数据库上进行,以保证原始数据中的隐私信息不被泄露。这种模式的特点是不限制用户查询次数,但会导致数据发布可用性低,数据查询时效性差。图4非交互保护模型03差分隐私数据发布机制凡是满足差分隐私定义的机制都可以看成差分隐私数据发布机制。目前已经提出了很多差分隐私数据发布机制,如拉普拉斯机制、索引机制、中值机制、矩阵机制等,但拉普拉斯机制和指数机制是差分隐私数据发布中应用最广泛的两种机制.这两种机制都可以在满足差分隐私的同时保护发布数据的隐私。此外,还有敏感数据集发布机制和非敏感数据集发布机制。(1)拉普拉斯机制拉普拉斯机制(LaplaceMechanism)适用于输出结果为数值型的查询函数。该机制通过在真实输出中加入适当的拉普拉斯噪声来获得差分隐私。噪声根据满足概率分布的拉普拉斯分布LAP(λ)产生,其中λ为分布的比例因子,其值取决于全局敏感度Δf和期望的差分隐私变量ε,以及此的方差分布为σ2=2λ2。以下定理和定义指定了这些变量之间的关系。对于任意f:Dn→Rd,此时加入满足拉普拉斯分布LAP(λ)的机制的输出满足ε-差分隐私。拉普拉斯机制:如果一个机制M满足ε-差分隐私,并且在数据集D上存在函数f:D→R,那么拉普拉斯机制可以表示为:M(D)=f(D)的原理+LAP(Δ/ε)拉普拉斯机制是在真实数据中加入独立的拉普拉斯噪声,由尺度参数为λ的拉普拉斯概率密度函数产生。若用LAP(λ)表示拉普拉斯噪声,拉普拉斯机制定义如下:(2)指数机制对于非数值数据,差分隐私采用指数机制对结果进行随机化,并使用评分函数q(D,Φ)来评估输出Φ的质量。另外,由于评分函数依赖于实际应用,不同的应用会有不同的评分函数,导致没有通用的评分函数可以使用。指数机制:令q(D,Φ)表示数据集D的评分函数,它可以衡量输出Φ的质量。Δq表示输出Φ的灵敏度,当指数机制M满足下式时,满足差分隐私。在实际应用中,很多查询函数的输出结果都是非数值的,这使得添加拉普拉斯噪声变得毫无意义。为此,有学者提出了索引机制来实现对非数值数据的差分隐私保护,并设计了能够获得更好查询响应的应用场景。我们首先定义一个效用函数u:(D×τ)→R,它在输出域R中向输出r添加实值噪声。这里,数值越大表示效用越好。然后选择一个概率满足的输出r∈R,其中?u=maxD,D′,?r|u(D,r)?u(D′,r)|是效用函数的敏感性。因为u的值越大越容易被选中,所以这个机制可以看作是u的优化。此外,效用函数对数据库中单个记录的变化不敏感。下面举一个具体的例子来说明索引机制。如果班级开运动会,就要选一个项目进行比赛。为了保护投票信息不被泄露,由于最终结果不是数值型的,所以采用索引机制进行保护;在统计投票数时,显然函数Δq=1,因此,根据指标机制的要求,保护表1中的投票结果,可以计算出每个项目的概率值。表1指数机制应用实例从上表的计算结果可以看出,当隐私保护参数比较大时,输出结果的概率值也比较大。同时,如果隐私保护参数变小,最终结果会趋于相等。对于任何查询函数u:(D×τ)→R,指数机制可以在选择概率为的输出r时保证ε-差分隐私。(3)敏感候选集发布机制针对敏感候选集,因为它不仅包含群体用户的行为特征区域,还包含用户之间关联的位置信息,所以为了保护用户的位置信息不被泄露在被攻击者推断出用户位置关联信息泄露的同时,针对敏感候选集提出了一种相关灵敏度差分隐私保护方法,即提高差分隐私中的全局灵敏度以减少噪声的引入。然后对敏感候选集中的所有集群进行隐私保护,以保护用户的相关位置隐私。上面得到了个体用户的关联敏感度,可以根据得到的敏感候选集关联属性的强弱合理分配ε的大小,从而保证数据保护的隐私预算满足差异化的要求隐私。对每个敏感候选集中的个体用户进行个性化密钥保护。对于关联信息比较强的用户,采用比较强的机制进行数据保护;对于那些关联信息相对较弱的用户,采用相对较弱的机制进行数据保护,然后将用户的关联信息减少到可接受的范围内,使得攻击者在进行关联攻击时,可以获取的用户关联属性数量得到的会大大减少。对用户敏感候选集进行处理后,得到的数据既保护了用户的位置信息,又保护了用户的关联信息,并将数据运算转化为矩阵,进一步降低了算法的复杂度。(4)非敏感候选集发布机制针对非敏感候选集的用户位置数据,主要保护非停留点位置数据的隐私。用户的直达点包含大量路径问题,如果不加以保护,将会泄露用户的隐私信息。对于用户轨迹点,虽然也有一些关联信息,但没有停留区那么严重。如果简单地使用差分隐私拉普拉斯噪声处理用户的轨迹点,则会在现有轨迹位置上形成毛刺,难以抵抗攻击者的过滤攻击。因此,这里采用指数机制来解决这个问题,结合用户所在位置在极坐标系中的速度和方向因素,加入相邻位置点的噪声,使得噪声的加入能够更好的保护保护用户隐私,抵御过滤攻击。该算法主要是为相邻的位置点计算下一个点的速度、方向和距离,然后将笛卡尔坐标系转换为极坐标系,加入不同维度的噪声,使加入的噪声更符合结合现实生活的要求。而且它对攻击者有更好的抵抗力。通过这种方式获得的数据可以防止攻击者过滤攻击,在增加保护的基础上保持数据集的可用性,在隐私保护和数据集可用性之间取得很好的平衡。04数据发布面临的挑战目前,虽然很多研究者致力于数据发布的隐私保护技术研究,但随着信息技术的发展,数据规模不断增大,数据类型更加复杂多样.随着数据挖掘技术的提高,隐私保护技术在数据发布中的研究意义更加突出。差分隐私作为数据发布隐私保护技术的标准,对于解决当前数据发布与隐私保护之间的矛盾具有十分重要的意义。因此,研究更好的差分隐私数据发布方法具有重要的现实意义。综上所述,现有差分隐私数据发布面临的主要挑战如下。(1)数据类型的变化目前,现实生活中的很多应用都倾向于动态生成和发布数据。与之前相比,数据类型由静态变为动态。不适用于当前的动态数据发布。如果使用静态数据发布动态数据,由于隐私预算有限,发布数据的可用性可能极差。尽管已经提出了一些适用于动态数据发布的差分隐私方法,但动态数据发布的可用性仍有待提高。(2)隐私预算的分配在差分隐私数据发布中,隐私预算的分配与数据发布的效用密切相关,尤其是在发布动态数据的过程中,如果有限的隐私预算不能合理分配,可能会导致动态数据发布效果变差。现有的差分隐私动态数据发布方法大多采用较为简单的方法来分配隐私预算,如将隐私预算以统一、递增或递减的方式分配给需要发布的采样点,没有考虑动态数据的特性.合理分配有限的隐私预算,导致隐私预算过早耗尽或浪费。因此,如何合理分配动态数据发布中有限的隐私预算成为差分隐私动态数据发布面临的挑战。
