当前位置: 首页 > 科技观察

超越SOTA3.27%,上海交通大学等提出自适应局部聚合新方法

时间:2023-03-19 19:30:14 科技观察

本文介绍了AAAI2023收录的一篇论文,法斯特女王大学HuaYang和路易斯安那州立大学WangHao共同完成了该项目。论文链接:https://arxiv.org/abs/2212.01197代码链接(包括ALA模块的使用说明):https://github.com/TsingZ0/FedALA本文提出了一种方法AnAdaptiveLocalAggregationMethodforFederated学习,它通过自动从全局模型中捕获客户需要的信息来解决联邦学习中的统计异质性问题。作者比较了11个SOTA模型,取得了比最佳方法高出3.27%的优越性能。作者将自适应局部聚合模块应用到其他联邦学习方法中,取得了24.19%的最大提升。1.介绍联邦学习(FL)通过将用户隐私数据保存在本地而不传播,帮助人们充分挖掘用户数据中包含的价值,同时保护隐私。然而,由于客户端之间的数据不可见,数据的统计异构性(数据非独立同分布(non-IID)和数据量不平衡)成为FL面临的巨大挑战之一。数据的统计异质性使得传统的联邦学习方法(如FedAvg等)很难通过FL过程训练获得适合每个客户端的单一全局模型。近年来,个性化联邦学习(personalizedfederatedlearning,pFL)方法因其能够处理数据的统计异质性而受到越来越多的关注。与寻求高质量全局模型的传统FL不同,pFL方法旨在借助联邦学习的协作计算能力,用自己的个性化模型训练每个客户端。现有的服务器聚合模型的pFL研究可以分为以下三类:(1)学习单个全局模型并对其进行微调的方法,包括Per-FedAvg和FedRep;(2)学习额外个性化模型的方法,包括pFedMe和Ditto;(3)通过个性化聚合(或本地聚合)学习本地模型的方法,包括FedAMP、FedPHP、FedFomo、APPLE和PartialFed。类别(1)和(2)中的pFL方法使用全局模型中的所有信息进行局部初始化(意味着在局部训练的每次迭代之前初始化局部模型)。然而,在全局模型中,只有提高局部模型质量的信息(满足局部训练目标的客户端所需的信息)对客户端是有益的。全局模型的泛化能力较差,因为既有单个客户需要的信息,也有不需要的信息。因此,研究人员在类别(3)中提出了pFL方法,通过个性化聚合来捕获全局模型中每个客户端所需的信息。然而,类别(3)中的pFL方法仍然存在(a)不考虑客户端本地训练目标(例如FedAMP和FedPHP),(b)计算和通信成本高(例如FedFomo和APPLE),(c)隐私泄漏(例如FedFomo和APPLE)和(d)个性化聚合与本地训练目标之间的不匹配(例如PartialFed)。此外,由于这些方法对FL过程进行了大量修改,因此它们使用的个性化聚合方法不能直接应用于大多数现有的FL方法。与FedAvg相比,为了在不增加每次迭代中的通信成本的情况下,从全局模型中准确捕获客户端所需的信息,作者提出了一种用于联邦学习的自适应局部聚合方法(FedALA)。如图1所示,FedALA在每次局部训练之前通过AdaptiveLocalAggregation(ALA)模块将全局模型与局部模型进行聚合,从而捕获全局模型中所需的信息。由于FedALA相比FedAvg在每次迭代中只使用ALA修改局部模型初始化过程,而没有改变其他FL过程,因此ALA可以直接应用于大多数其他现有的FL方法,以增强其个性化性能。图1:第一次迭代中客户端的本地学习过程2方法2.1自适应本地聚合(ALA)图2:自适应本地聚合(ALA)过程自适应本地聚合(ALA)过程如图2所示。与传统联邦学习中直接用局部模型覆盖下载的全局模型得到局部初始化模型的方法(即),FedALA通过学习每个参数的局部聚合权重进行自适应局部聚合。其中,笔者将此项称为“更新”。另外,作者通过element-wiseweightpruning实现正则化,限制[0,1]中的值。因为深度神经网络(DNN)的下层往往比高层学习到相对更多的通用信息,而通用信息是每个局部模型所需要的信息,因此全局模型下层的大部分信息是一致的具有本地模型中较低级别网络所需的信息。为了降低学习局部聚合权重所需的计算成本,作者引入了一个超参数p来控制ALA的范围,使得全局模型中的下层网络参数直接覆盖局部模型中的下层网络,并且仅在更高层启用ALA。其中,表示中的神经网络层数(或神经网络块数)与中低层网络的形状一致,与剩余p层高层网络的形状一致在。作者将里面的值全部初始化为1,并且在每一轮的局部初始化过程中都基于旧的update。为了进一步降低计算成本,作者使用随机抽样s,其中更新后的学习率。在学习过程中,作者冻结了除图3:客户端8在MNIST和Cifar10数据集上的学习曲线之外的其他可训练参数。通过选择较小的p值,ALA训练所需的参数会大幅减少,而对FedALA性能的影响很小。此外,如图3所示,作者观察到一旦它在第一次训练中训练收敛,即使在后续迭代中训练,它对局部模型质量也没有太大影响。也就是说,每个客户端都可以重用旧实现对其所需信息的捕获。作者在后续迭代中采用微调的方法来降低计算成本。2.2ALA分析为了简洁起见,作者忽略了拼接,但不影响分析。根据上面的公式可以得到,其中表示。作者可以将更新视为ALA中的更新。梯度项在每一轮中按元素缩放。与局部模型训练(或微调)方法不同,上述对的更新过程了解全局模型中的一般信息。在不同迭代之间,动态变化将动态信息引入ALA模块,使得FedALA易于适应复杂环境。3实验作者在实际数据异构环境下在Tiny-ImageNet数据集上使用ResNet-18研究超参数s和p对FedALA的影响,如表1所示。对于s,使用更多随机采样的局部训练数据进行ALA模块学习可以使个性化模型表现更好,但也增加了计算成本。在使用ALA时,s的大小可以根据每个客户端的计算能力进行调整。从表中可以看出,即使s非常小(比如s=5),FedALA依然有出色的表现。对于p,不同的p值对个性化模型的性能影响不大,但在计算成本上却有巨大差异。这种现象也从一个方面说明了FedRep等方法的有效性,这种方法划分模型,保留靠近输出的神经网络层,而不在客户端上传。在使用ALA时,我们可以使用一个小而合适的p值来进一步降低计算成本,同时保证个性化模型的性能。表1:超参数研究及其对FedALA的影响作者在病理和实际数据异构环境中将FedALA与11种SOTA方法进行了比较分析。如表2所示,数据显示FedALA在这些情况下优于这11种SOTA方法,其中“TINY”表示在Tiny-ImageNet上使用4层CNN。例如,FedALA在TINY上的表现优于最佳基线3.27%。表2:病理和真实数据在异构环境下的实验结果此外,作者还评估了FedALA在不同异构环境和客户端总数下的性能。如表3所示,FedALA在这些情况下仍然保持出色的性能。表3:其他实验结果根据表3的实验结果,将ALA模块应用于其他方法可以实现高达24.19%的提升。最后,作者还在MNIST上可视化了加入ALA模块对原有FL过程中模型训练的影响,如图4所示。当ALA未激活时,模型训练轨迹与使用FedAvg一致。一旦ALA被激活,就可以使用全局模型中捕获的训练所需的信息直接优化模型以实现最佳目标。图4:客户端#4上模型训练轨迹的可视化