当前位置: 首页 > 科技观察

DBD-BackdoorDefenseMethodBasedonSegmentedBackdoorTrainingProcess

时间:2023-03-13 17:46:01 科技观察

香港中文大学(深圳)吴宝元教授课题组与浙江大学詹秦教授课题组联合发表后门防御领域的文章,具有成功被ICLR2022录用。近年来,后门问题受到了广泛关注。随着后门攻击的不断被提出,提出针对广义后门攻击的防御方法变得越来越困难。本文提出了一种基于分割后门训练过程的后门防御方法。本文揭示后门攻击是一种将后门投射到特征空间的端到端监督训练方法。在此基础上,本文将训练过程拆分,避免后门攻击。将该方法与其他后门防御方法进行了比较,证明了该方法的有效性。会议收录:ICLR2022文章链接:https://arxiv.org/pdf/2202.03423.pdf代码链接:https://github.com/SCLBD/DBD1背景介绍后门攻击的目标是修改训练数据或控制训练process等方法使模型预测出正确的clean样本,但是判断带有后门的样本作为目标标签。例如,后门攻击者在图片(即中毒图片)上添加一个固定的白块,并修改图片的标签作为目标标签。用这些中毒数据训练模型后,模型会判断带有特定白色块的图片是目标标签(如下图)。基本的后门攻击模型在触发器和目标标签之间建立关系。2相关工作2.1后门攻击现有的后门攻击方法根据中毒图片的标签修改分为以下两类,修改中毒图片标签的中毒标签攻击(Poison-LabelBackdoorAttack),以及中毒图片攻击(Clean-LabelBackdoorAttack)原始标签的清洁标签。1.Poisonedlabelattack:BadNets(Guetal.,2019)是第一个也是最具代表性的毒标签攻击。后来(Chenetal.,2017)提出中毒图像的不可见性应该与其良性版本相似,并在此基础上提出混合攻击。最近,(Xueetal.,2020;Lietal.,2020;2021)进一步探索了如何更隐蔽地进行中毒标签后门攻击。最近,提出了一种更加隐蔽和有效的攻击WaNet(Nguyen&Tran,2021)。WaNet使用图像变形作为后门触发器,在变形时保留图像内容。2.清洁标签攻击:为了解决用户可以通过检查图像标签关系注意到后门攻击的问题,Turner等人。(2019)提出了一种清洁标签攻击范式,其中目标标签与中毒样本的原始标签一致。在(Zhaoetal.,2020b)中将这一想法扩展到攻击视频分类,他们采用了目标通用的对抗性扰动(Moosavi-Dezfoolietal.,2017)作为触发器。虽然清洁标签后门攻击比毒化标签后门攻击更隐蔽,但它们通常表现相对较差,甚至可能无法创建后门(Li等人,2020c)。2.2后门防御现有的后门防御大多是经验性的,可以分为五大类,包括1.基于检测的防御(Xuetal,2021;Zengetal,2011;Xiangetal,2022)检查可疑模型或如果样本被泄露,它将拒绝恶意对象。2.基于预处理的防御(Doanetal,2020;Lietal,2021;Zengetal,2021)旨在通过在将图像输入模型之前引入预处理模块来破坏攻击样本中包含的触发模式,以防止后门被激活。3.基于模型重构的防御(Zhaoetal,2020a;Lietal,2021;)是通过直接修改模型来消除模型中隐藏的后门。4.触发综合防御(Guoetal,2020;Dongetal,2021;Shenetal,2021)是先学习后门,再通过抑制影响消除隐藏后门。5.Defensionsbasedonpoisoningsuppression(Duetal,2020;Borgniaetal,2021)在训练过程中降低中毒样本的有效性,防止隐藏后门的产生2.3半监督学习和自监督学习1.半监督learning:在很多现实应用中,标注数据的获取通常依赖于人工标注,成本非常高。相比之下,获得未标记的样本要容易得多。为了利用未标记和标记样本的力量,已经提出了大量的半监督学习方法(Gaoetal.,2017;Berthelotetal,2019;VanEngelen&Hoos,2020)。最近,半监督学习也被用于提高模型安全性(Stanforth等人,2019年;Carmon等人,2019年),他们在对抗训练中使用未标记的样本。最近,(Yanetal,2021)讨论了如何后门半监督学习。然而,除了修改训练样本外,该方法还需要控制其他训练成分(如训练损失)。2.自监督学习:自监督学习范式是无监督学习的一个子集,其中使用数据本身生成的信号训练模型(Chen等人,2020a;Grill等人,2020;Liu等人,2021)).它用于增加对抗性鲁棒性(Hendrycks等人,2019年;Wu等人,2021年;Shi等人,2021年)。最近,几篇论文(Saha等人,2021年;Carlini和Terzis,2021年;Jia等人,2021年)探讨了如何将后门注入自监督学习。然而,除了修改训练样本外,这些攻击还需要控制其他训练组件(例如,训练损失)。3后门功能我们对CIFAR-10数据集进行BadNets和清洁标签攻击(Krizhevsky,2009)。有毒数据集的监督学习和未标记数据集的自我监督学习SimCLR(Chen等人,2020a)。后门特征的t-sne显示如上图(a)-(b)所示。在标准的监督训练过程之后,有毒样本(用黑点表示)倾向于聚集在一起形成单独的簇。这种现象暗示了现有基于中毒的后门攻击成功的原因。过度学习能力允许模型学习后门触发器的特征。结合端到端的监督训练范式,该模型可以缩小特征空间中中毒样本之间的距离,并将学习到的触发相关特征与目标标签连接起来。相反,如上图(c)-(d)所示,在未标记的中毒数据集上,经过自监督训练过程后,中毒样本与原始标签样本非常接近。这表明我们可以通过自监督学习来防止后门的产生。4基于分割的后门防御基于对后门特征的分析,我们提出了分割训练阶段的后门防御。如下图所示,它包括三个主要阶段,(1)通过自监督学习学习纯化的特征提取器,(2)通过标签噪声学习过滤高置信度样本,以及(3)半监督精细-调整。方法流程图4.1学习特征提取器我们使用训练数据集来学习模型。模型的参数包括两部分,一是主干模型的参数,二是全连接层的参数。我们利用自我监督学习来优化主干模型的参数。其中包括自监督损失(例如,SimCLR中的NT-Xent(Chen等人,2020))。通过前面的分析,我们可以知道特征提取器很难学习到后门特征。4.2标签噪声学习过滤样本一旦特征提取器被训练,我们固定特征提取器的参数并使用训练数据集进一步学习全连接层参数,其中是监督学习损失(例如,交叉熵)。虽然这样的分割过程会使模型难以学习后门,但它有两个问题。首先,与通过监督学习训练的方法相比,由于学习到的特征提取器在第二阶段被冻结,预测干净样本的准确性有明显下降。其次,当毒标签攻击发生时,毒样本将充当“异常值”,进一步阻碍第二阶段的学习。这两个问题表明我们需要去除有毒样本并对整个模型进行重新训练或微调。我们需要确定样本是否有后门。我们认为该模型对于后门样本是很难学习的,因此使用置信度作为区分指标。置信度高的样本是干净的样本,而置信度低的样本是有毒的样本。通过实验发现,采用对称交叉熵损失训练的模型,两个样本的损失差距较大,因而具有较高的判别力,如下图所示。Symmetricalcross-entropyloss和cross-entropyloss对比因此,我们固定特征提取器用对称交叉熵损失训练全连接层,通过大小将数据集筛选为高置信度数据和低置信度数据信心。4.3半监督微调首先,我们去除低置信度数据的标签。我们使用半监督学习微调整个模型。其中是半监督损失(例如MixMatch中的损失函数(Berthelotetal,2019))。半监督微调不仅可以防止模型学习后门触发器,还可以使模型在干净的数据集上表现良好。5实验5.1数据集和基准本文评估了两个经典基准数据集上的所有防御,包括CIFAR-10(Krizhevsky,2009)和ImageNet(Dengetal.,2009)(一个子集)。文章采用ResNet18模型(Heetal.,2016)文章研究了针对四种典型攻击的所有防御方法,即badnets(Guetal,2019)、混合策略后门攻击(blended)(Chenetal,2017)、WaNet(Nguyen&Tran,2021)和带有对抗性扰动的清洁标签攻击(标签一致)(Turner等人,2019)。后门攻击示例图5.2实验结果实验的判断标准是BA为干净样本的判断准确率,ASR为有毒样本的判断准确率。后门防御对比结果如上表所示,DBD在防御所有攻击方面明显优于同等要求的防御(即DPSGD和ShrinkPad)。在所有情况下,DBD的BA比DPSGD高20%,ASR低5%。DBD模型的ASR在所有情况下都小于2%(大多数情况下小于0.5%),验证了DBD可以成功阻止隐藏后门的创建。DBD与其他两种方法(即NC和NAD)进行了比较,这两种方法都要求防御者拥有干净的本地数据集。如上表所示,NC和NAD优于DPSGD和ShrinkPad,因为它们使用了来自本地干净数据集的额外信息。特别是,DBD优于NAD和NC,尽管它们使用了额外的信息。特别是在ImageNet数据集上,NC对ASR减少的影响有限。相比之下,DBD实现了最小的ASR,而DBD的BA在几乎所有情况下都是最高或第二高的。此外,与没有任何防御训练的模型相比,在防御有毒标签攻击时,BA下降不到2%。在相对较大的数据集上,DBD甚至更好,因为所有基线方法都变得不那么有效了。这些结果验证了DBD的有效性。5.3Ablationexperiments每个阶段的Ablationexperiments在CIFAR-10数据集上,我们比较了提出的DBD和它的四种变体,包括1.没有SS的DBD,用监督训练的Backbone替换自监督学习生成的backbone,并保留其他部分不变2.SSwithCE,freezethebackbonethroughself-supervisedlearning,andtrainingthecross-entropylossoftheremainingfullyconnectedlayeronalltr??ainingsamples3.SSwithSCE,与第一种变体相似,但是使用对称交叉熵损失进行训练。4.SSwithSCE+Tuning,在第三种变体过滤的高置信度样本上进一步微调全连接层。如上表所示,将原始的端到端监督训练过程解耦可有效防止隐藏后门的产生。此外,比较了第二个和第三个DBD变体,以验证SCE损失在防御毒标签后门攻击方面的有效性。此外,第四种DBD变体的ASR和BA低于第三种DBD变体。这种现象是由于去除了低置信度的样本。这表明使用来自低置信度样本的有用信息同时减少它们的副作用对于防御很重要。5.4抵抗潜在的自适应攻击如果攻击者知道DBD的存在,他们可能会设计自适应攻击。如果攻击者能够知道防御者使用的模型结构,就可以通过优化触发方式来设计自适应攻击,使得中毒样本经过自监督学习后仍然在一个新的簇中,如下:AttackSettingFora-classification问题,让表示需要被毒化的干净样本,表示原始标记样本,并作为训练有素的骨干。给定攻击者预定的中毒图像生成器,自适应攻击旨在通过最小化中毒图像之间的距离同时最大化中毒图像中心与具有不同标签的良性图像簇中心之间的距离来优化触发模式。距离,即。其中,就是距离判断。实验结果无防御自适应攻击的BA为94.96%,ASR为99.70%。但是,DBD的防守成绩是BA93.21%和ASR1.02%。换句话说,DBD可以抵抗这种自适应攻击。6总结基于中毒的后门攻击机制是在训练过程中在触发模式和目标标签之间建立潜在联系。这篇论文揭示了这种联系主要是由于端到端的监督训练范式学习。基于这种认识,本文提出了一种基于解耦的后门防御方法。大量实验验证了DBD防御在减少后门威胁的同时保持了对良性样本预测的高精度。