当前位置: 首页 > 科技观察

联邦学习不安全?Nvidia研究使用“无隐私”数据直接重建原图

时间:2023-03-19 09:52:10 科技观察

Federallearning因为数据不出来的局部隐私保护策略,一直被认为是高效解决AI计算问题和保护个人隐私的重要方向数据,并且已经出现了很多相关的研究和应用。然而,随着现行法律法规对数据限制的加深,从梯度和模型参数中推导出用户数据的方法层出不穷。在很多情况下,使用混淆后的数据和机器学习过程的参数,我们可以重建一个人的基本信息。而最近,Nvidia的研究人员更进一步,甚至直接从机器学习中的梯度数据中重建了图像。新研究让人疑惑:联邦学习真的不安全吗?具体来说,研究人员提出了一种GradInversion方法,通过反转给定的批平均梯度,从随机噪声中恢复隐藏的原始图像。该研究已被计算机视觉顶级会议CVPR2021录用。论文链接:https://arxiv.org/pdf/2104.07586.pdf研究人员提出了一种标签恢复方法,利用最后一个全连接层的梯度来恢复真实的标签。他们还提出了一种基于多种子优化和图像配准的组一致性正则化项,以提高图像重建质量。实验表明,对于像ResNet-50这样的深度网络,使用批平均梯度完全恢复具有丰富细节的单个图像是可行的。研究人员在论文中表示,与BigGAN等SOTA生成对抗网络相比,他们的非学习图像恢复方法可以恢复隐藏输入数据更丰富的细节。更重要的是,即使当图像批量大小增加到48时,通过反转批量梯度,该方法仍然可以完全恢复224×224像素大小的图像,具有高保真度和丰富的细节。对于这项研究的结果,有网友认为:“这就是差分隐私(DP)存在的原因,没有差分隐私的联邦学习无法保证隐私。”在研究概述下方的图1(a)中,研究人员提出了GradInversion,通过反转批平均梯度来恢复高保真和丰富细节的隐藏训练图像;图1(b)显示了将噪声转换为输入图像的优化过程,首先从全连接层梯度中恢复标签,然后在保真度正则化和基于配准的群体一致性正则化下优化输入以匹配目标梯度,从而提高重建质量。这种方法能够从ResNet-50批量梯度中恢复224×224像素的ImageNet图像样本,这在以前是不可能的。方法概述。由于卷积神经网络(CNN)的平移不变性,基于梯度的反演面临另一个挑战——目标对象的精确定位。在理想情况下,优化可以收敛到基本事实。然而,如下图2所示,研究人员观察到,当使用不同的种子重复优化过程时,每个优化过程都可以获得局部最小值。这些局部最小值在所有级别分配语义正确的图像特征,但彼此不同:图像围绕基本事实进行变换并关注不同的细节。研究人员提出了组一致性正则化项,通过联合优化同时使用多个种子。具体过程如下图3所示:实验结果。ImageNetILSVRC2012数据集类用于评估该方法在分类任务上的性能。首先,他们对大小为8的224×224像素的图像进行了比较。下面的图4和表4是GradInversion方法与SOTA方法(如LatentProjection、DeepInversion、InvertingGradients和分别为深梯度泄漏。结果表明,该方法在视觉和数值上均胜出。接下来,研究人员使用32GBNVIDIAV100GPU将批量大小增加到48。如下图6所示,随着batchsize的增加,可恢复图像的数量逐渐减少。但是,GradInversion方法仍然可以获得一定量的原始视觉信息,有时可以实现完整的重建,如下图7:第一篇工作介绍本文的第一篇工作是毕业于南洋的HongxuYin2015年新加坡科技大学电机与电子工程专业,获工学学士学位,并在美国普林斯顿大学电机工程系攻读博士学位。他现在是NVIDIA(硅谷)的研究科学家。他的研究重点是高效的深度神经网络、无数据模型压缩/神经架构搜索和边缘医学推理。个人主页:https://scholar.princeton.edu/hongxu