背景随着人工智能技术的快速发展,重视数据隐私和安全已成为国家大事。在数据孤岛现象与数据融合相互矛盾的环境下,联邦学习(FederatedLearning,FL)作为一种新型的分布式机器学习技术应运而生。联邦学习旨在安全地交换不可逆信息(例如模型参数或梯度)。更新),使多个数据持有者(如手机、物联网设备等)能够在不共享数据的情况下协同训练模型。虽然联邦学习避免了将数据直接暴露给第三方,对数据有天然的保护作用,但仍然存在不少隐私泄露的风险。本文为读者介绍了联邦学习的概念、3类隐私泄露风险和4种主要的隐私保护技术。1、联邦学习的定义:联邦学习实际上是一种加密的分布式机器学习技术。联邦学习可以跨越多个设备,所有相关方都可以在不公开底层数据和加密(混淆)形式的情况下联合起来构建模型。通过加密机制,各个企业的数据可以在不离开本地环境的情况下交换参数,从而在不违反数据隐私法的情况下实现共享模型的构建。分类:根据数据和用户呈现的特点,联邦学习分为水平联邦学习、垂直联邦学习和迁移联邦学习三类。详情请参考[1-2]。典型架构:客户端-服务器架构和端到端架构。前者通过中心服务器传递参数,后者直接在客户端之间传递参数。训练过程:如图1所示,FL主要包括以下三个步骤。Step1:模型选择(启动全局模型和初始参数,在FL环境下共享给所有客户端);Step2:本地模型训练(客户端初始ML模型,用个人训练数据训练模型);Step3:本地模型聚合(客户端将本地模型更新发送到中央服务器进行全局模型的聚合和训练,全局模型将发送到每个客户端进行多轮迭代模型训练)。图1联邦学习模型训练架构2.FL隐私泄露风险联邦学习虽然不直接交换数据,比传统机器学习具有更高的隐私保护,但没有提供全面充分的隐私保护,仍然面临信息泄露的威胁.由于参与者可以根据上传的参数推断出其他参与者的训练数据,联邦学习中的隐私风险主要来自不同类别的推理攻击,主要包括成员推理攻击、无意的数据泄露和推理重构、基于GANs的推理攻击[3].2.1MembershipinferenceattackMembershipinferenceattack通过攻击机器学习模型,攻击者可以推断出模型训练集的信息和结构。这种攻击给机器学习带来了严重的隐私威胁。如图2所示,原始数据集训练的模型运行在应用平台上,攻击者冒充用户访问目标模型,获取一定信息和对手知识构建攻击模型,推断是否有给定的数据是训练成员模型的目标[4]。图2联邦学习下的隶属推理2.2无意数据泄露&推理重构攻击者利用中心服务器的无意数据泄露漏洞获取客户端的更新数据或梯度信息,通过推理攻击成功重构其他客户端的数据。这是一次类似的攻击。对于给定的训练模型,判断其训练集是否包含特定属性的数据点,这与训练任务不一定相关。例如,在使用LFW数据集训练性别识别模型时,推理重建可以发现样本的其他特征,例如样本的种族、是否戴眼镜等,这会带来隐私泄露的风险[5].2.3GANs推理攻击GANs是近年来大数据领域流行的生成对抗网络,也适用于基于联邦学习的方法。有一些联邦学习客户端使用本地旧数据作为训练模型的贡献。很难评估每个客户端的贡献和声誉,因为在联邦学习中只更新参数。如图3所示,这种攻击利用了学习过程的实时性,并允许对手训练通用对抗网络(GAN)来生成私有目标训练集的原型样本,推断出的图像几乎是与原始图像相同,因为GAN旨在生成与训练集具有相同分布的样本。当分类样本彼此相似时(人脸识别),这种攻击非常大[5]。图3联邦学习下的推理重构3.FL隐私保护通过以上分析,联邦学习存在隐私泄露的诸多风险,有攻必有防。研究人员还开发了许多技术来增强联邦学习的隐私保护。联邦学习中增强隐私保护和减少威胁的方法主要有以下四种方法:安全多方计算、差分隐私、VerifyNet和Adversarialtraining[3]3.1安全多方计算(sMPC)sMPC采用密码学方法保护客户端参数更新或梯度。如图4所示,联邦学习sMPC不同于传统算法的应用场景。在联邦学习算法中,sMPC只需要对参数进行加密,不需要对大量的用户数据进行加密,显着提高了sMPC的效率,使sMPC成为联邦学习环境中的一个很好的选择。图4联邦学习下的sMPC3.2差分隐私(DP)。DP通过加噪声的方式对特征明显的数据进行扰乱,使单条数据失去唯一性,隐藏在大量数据中,防止敏感数据泄露。DP仍然可以使数据具有原有的分布式特性。在联邦学习中,为了避免数据的反向检索,对客户端上传的参数进行了差分隐私处理,这可能会给上传的参数带来不确定性,影响模型的训练效果。3.3VerifyNetVerifyNet是一个隐私保护和可信验证的联邦学习框架。VerifyNet的双重隐藏协议保证了联邦学习过程中用户局部梯度的机密性,中央服务器需要向每个用户提供聚合结果正确性的证明。在VerifyNet中,除非模型中采用的np-hard问题能够得到解决,否则攻击者很难伪造证明来欺骗其他用户。此外,VerifyNet还支持用户在训练过程中退出,发现威胁时快速回退,多方面保护用户的隐私和安全。3.4对抗训练(AT)对抗训练是增强神经网络鲁棒性的重要途径,是一种主动防御技术。在联邦学习的对抗训练过程中,样本中会混入一些小的扰动(可能导致误分类),然后神经网络就会适应这种变换。因此,联邦学习的最终全局模型对已知的对抗样本具有鲁棒性。粘性。4.总结联邦学习技术是隐私保护下机器学习的一条可行路径,是解决“数据孤岛问题”的途径。适用于B2B、B2C业务,应用场景广泛。联邦学习的隐私安全问题也是人们关注的热点。本文介绍了联邦学习的概念、推理攻击带来的隐私泄露风险,以及主要的隐私保护技术,包括安全多方计算、差分隐私、VerifyNet、对抗训练等,供读者参考。参考文献[1]YixuanLiu,HongChen,&YuhanLiu,&CuipingLi.(2021)。联邦学习中的隐私保护技术。软件杂志,33(3),0-0.[2]Yang,Q.、Liu,Y.、Chen,T.和Tong,Y.(2019)。联合机器学习:概念和应用。ACM智能系统和技术交易(TIST),10(2),1-19。[3]Mothukuri,V.、Parizi,R.M.、Pouriyeh,S.、Huang,Y.、Dehghantanha,A.和Srivastava,G.(2021)。联邦学习的安全和隐私调查。下一代计算机系统,115,619-640.[4]高婷.(2022)。机器学习成员推理攻击的研究进展与挑战。运筹学与模糊学,12,1.[5]人工智能大本营。(2022)。联邦学习的隐忧:梯度深度泄漏,https://t.cj.sina.com.cn/articles/view/6080368657/16a6b101101900wgmv
