人工智能中的隐私已被认为是一个重要而严肃的问题。近日,宾夕法尼亚大学的一个研究小组开发了一种新的数据隐私分析框架,可以在多种类型的机器学习问题中有效保护个人隐私。该框架已成功与深度学习结合,在多个需要隐私保护的深度学习任务中取得了最高准确率。什么是差分隐私在这个大数据时代,如何正确获取和使用与真人相关的数据逐渐成为亟待解决的问题。没有人愿意知道自己的病情、上网或买衣服,更不用说手机上未经编辑的自拍了。一种简单的隐私保护方法是“匿名化”:从收集的数据中去除个人信息的特征。遗憾的是,这种方法并不可靠。曾有研究通过与IMDb数据库交叉比对成功解密Netflix的匿名观影记录,直接导致第二届Netflix数据分析大奖赛取消。2006年,隐私算法的研究迎来了一个新的里程碑。CynthiaDwork、FrankMcSherry、KobbiNissim和AdamSmith定义了“差分隐私”(以下简称DP)来严格分析隐私的概念。差分隐私很快被证明是一种强大而有效的工具,并被谷歌、苹果、微软和阿里巴巴等主要组织所采用。并且这四位发明人在2017年获得了有理论计算机科学界诺贝尔奖之称的哥德尔奖。为了理解差分隐私,我们可以看下面这个简单的假设检验:假设有两个数据集S,S'S={小明,小刚,小梅};S'={Xiaohong,Xiaogang,Xiaomei}we称这两个数据集是相邻的,因为它们的区别只在于一个人。我们的目的是检查我们的模型是否在S上训练过,相当于检查我们的数据中是否存在小明。如果这个假设检验非常困难,那么想要获取小明信息的攻击者就很难得逞。严格来说,一个符合(epsilon,delta)-DP的随机算法M意味着对于任意事件E,从定义上不难看出epsilon和delta越小,隐私性越好。那么,如何实现算法的隐私性呢?具体方法是衡量算法的中间产物(如梯度)的灵敏度,并根据其大小施加比例噪声。由于噪声的存在,想要窃取小明信息的攻击者无法确定小明是否在训练集中。在深度神经网络中,每次迭代都会牺牲一些隐私来换取性能的提高。我们可以在每个批次的梯度中添加噪声来迷惑攻击者。当然,噪声越大,隐私越安全,但性能自然会变差。在有限的隐私预算下,隐私算法的性能往往不尽如人意。深度学习通常需要敏感的个人信息进行训练。现有的差分隐私定义和隐私模型试图在性能和隐私之间找到平衡。不幸的是,这些尝试仍然没有很好地处理两个重要方面:子采样和合成。这导致隐私算法的性能通常比非隐私算法差很多。高斯差分隐私(GDP)是最近提出的一种隐私表示方法。它可以准确地表征优化器在每个时期消耗的隐私。GDP的表达简洁而概括(在SGD、Adam、Adagrad等多个优化器上的表征完全相同)。GDP的分析进一步推广到泊松子采样和新的优化器。新的概括在理论上得到了严格的证明,特别是证明了它优于以前最先进的Moments会计师方法。在《Gaussian Differential Privacy》中,宾夕法尼亚大学的董金硕、AaronRoth、苏维杰创新性地定义了“f-DP”来描述隐私。如果用alpha表示第一类错误,用beta表示第二类错误,对于任何拒绝规则(rejectionrule)phi,都有一个权衡函数T:减少第一类错误导致导致II类错误的增加,反之亦然。我们将两类误差之和的最小值称为最小误差和。如果一个随机算法M在S和S'上的转换函数T总是大于函数f,那么它满足f-DP。与传统的eps、delta-DP相比,f-DP使用了一个函数f,这也使得它的描述更加自由和准确。作为f-DP的一个重要案例,作者随后引入了高斯差分隐私(GDP)来区分两个高斯分布。根据中心极限定理(CLT),任何基于假设检验的隐私定义都将收敛于GDP的极限。事实上,相比于谷歌在2016年提出的适合计算epsilon、delta-DP的MomentsAccountant(MA)方法,本文提出的CLT方法可以更容易地计算GDP并且非常准确。值得注意的是,这篇文章最近被国际顶级统计期刊JournaloftheRoyalStatisticalSociety:SeriesB接收为Discussionpaper,这是数据科学界对这项工作的认可。结合GDP和深度学习GDP的好处不止于此。布志奇、董金硕、龙奇和苏维杰在最新的工作《Deep Learning with Gaussian Differential Privacy》中指出,GDP和eps、delta-DP可以通过他们设计的Dual函数相互转换。也就是说,研究者可以在f-DP的框架下对算法进行分析,然后将其转化为传统的dp,或者利用传统领域已有的理论和技术,无需二次开发。该技术现已在TensorFlow中实现。论文地址:https://arxiv.org/abs/1911.11607项目实现:https://github.com/tensorflow/privacy/blob/master/tensorflow_privacy/privacy/analysis/gdp_accountant.py在实验中,作者将GDP结合深度学习,在各类任务上都取得了不错的效果。此前,谷歌还将epsDP与深度学习相结合。虽然它在MNIST图像识别上达到了97%的正确率(没有隐私算法时超过99%),但它在CIFAR10上停在了73%的正确率(没有隐私算法高达86%)。使用GDP的精确表征,作者在MNIST上实现了98%的准确率。不仅如此,MA计算的结果表明,MNIST96.6%的正确率对应的最小错误和为9.4%,这意味着攻击者有超过90%的概率猜测到一张图片是否在数据集中.CLT的计算表明,epsDP过于保守:同一个模型,同样的性能,实际对应的最小误差和居然是77.6%,这意味着隐私并没有损失很多。为了充分挖掘GDP的优越性,作者在GDP框架下分析了神经网络的性能。作者实现了私有版本的SGD和Adam,迭代神经网络直到GDP达到mu=2。在IMDb(自然语言处理)、MovieLens1M(推荐系统)和AdultIncome(非图像分类任务)上,GDP模型取得了非常接近无隐私模型的性能。例如,在AdultIncome数据上,隐私神经网络和非隐私神经网络的表现几乎一样,这意味着隐私可能不需要以牺牲大量的性能为代价。此外,作者强调,本文的神经网络相对简单(不超过三层),如果使用更复杂、更高级的神经网络,在相同隐私保证下,性能可以得到显着提升。另一方面,使用高效的优化算法(减少迭代次数,即隐私损失的次数)也可以使性能更好。由于在相同的性能条件下,CLT比MA更能保护隐私,反之,在相同的隐私预算下,GDP也能表现出更强的性能。作者构思了一个实验来说明这一点:用sigmanoise训练一个神经网络几步,用MA计算当前丢失了多少隐私,用CLT和Dual逆向求解必要的noisesigmahat。注意sigmahat必须小于sigma,然后训练相同的神经网络但只添加sigmahat噪声。噪声越少,新的神经网络学习得越好,并且随着每次迭代,新的神经网络在保护隐私方面做得更好。将神经网络和GDP相结合可以更准确地呈现隐私损失,从而更好地保护隐私,提高隐私算法的性能。另一方面,现有的(epsilon,delta)-DP研究也可以嫁接到GDP中,为这两个领域带来新的机遇。隐私算法领域的这一新进展让研究人员更有信心相信,随着机器学习的进一步发展,在不远的将来,我们或许能够以微不足道的成本保护自己的隐私。同时,也鼓励人们更愿意分享涉及个人信息的数据,促进机器学习的发展。
