在近年考察AI领域的过程中,发现对抗性攻击的概念近年来逐渐出现在各国研究人员的视野中。我认为这将是现在乃至未来几年最引人注目的新方向之一。1.概况我对国内两个知名的学术搜索网站AMiner和Acemap进行了调查,搜索了adversarialattack和poisoningattack等关键词含义相近的相关论文。以下是两个网站给出的论文Dataanalysisinfographics。一方面,从图中可以明显看出,从2015年到今年,与对抗性攻击相关的论文数量大幅增加,这说明在机器学习飞速发展的今天,机器学习的安全问题逐渐被研究者所重视。所以我觉得这个方向应该是未来几年新兴的热点。另一方面,虽然近年来此类论文明显增多,但这并不意味着这个方向有更好的前景和更多可挖掘的知识。于是又搜索了另一个现在已经成为热门方向的领域——强化学习数据进行对比。通过对比强化学习和对抗攻击的热度和论文发表数量可以发现,与强化学习大行其道的方向一致,对抗攻击也开始有了论文,热度急剧上升。但是,不同的是,adversarialattacks论文的绝对数量仍然很少。这说明,可研究的对抗攻击的东西还处在研究者逐渐发现的过程中,还没有形成体系。所以从这个角度来说,直觉上,我觉得最新的科技新词应该是adversarialattack。2.原理神经网络的有趣特性[12]作为对抗攻击的开创性工作,提到了神经网络的两个现象。第一个是高维神经网络的神经元并不代表某个特征,而是所有的特征都混合在所有的神经元中;二是对原始样本点加入一些有针对性但不易察觉的扰动,容易造成神经网络的分类错误。第二个属性是对抗性攻击的理论基础。后来,Goodfellow在ExplainingandHarnessingAdversarialExamples[13]中提出,原因不在于深度神经网络的高度非线性和过拟合。甚至线性模型也有对抗样本。在本文中,我们可以粗略地认为对抗性攻击之所以能够成功,是因为误差放大效应:假设我们对输入样本加入扰动,那么对抗性样本为:x~=x+η,其中η较小足够(|η|∞≤ε),我们考虑权重向量ω和对抗样本x~的内积:权重维度为n,均值为m,则显然ωτη的最大值为εmn,则η=εsign(ω)。因此,在高维空间中,即使是很小的干扰也会对最终的输出值产生很大的影响。3.发展历程在研究该领域论文的过程中,我发现,作为机器学习安全的方向,对抗性攻击的发展可以归结为两个核心:不断寻找新的应用场景和不断使用新的算法。3.1不断寻找新的应用场景每当机器学习的新领域出现时,研究人员都会尝试对该领域的对抗性攻击进行研究,研究攻击和防御该领域的方法。以下是我发现的一些典型领域对抗性攻击的研究成果:3.1.1计算机视觉分类攻击图像分类是计算机视觉最经典的任务,因此在该应用场景下的对抗性攻击论文最多,例如:Jacobian-basedSaliencyMapAttack(JSMA)[1]、OnePixelAttack[2]、DeepFool[3]等,这些论文的思路都是一样的:图像的所有像素点依次或随机地逐一变化,然后利用隐藏层的梯度,根据梯度计算点变化对整张图片的攻击显着性。选择下一个要改变的点,最后通过这样的训练找到最优的攻击像素点。其中,我认为OnePixelAttack[2]的工作最为重要。本文只改变一个像素就完成了对整张图片的攻击。我觉得最创新的一点是作者利用了差分进化算法的思想,通过每一代的不断变异然后“适者生存”,最终可以找到一个像素点及其RGB值修改值足以攻击整张图片,这种方法的优点是它是黑盒攻击,不需要知道网络参数等任何信息。效果如下,我认为意义重大:AttacksonSemanticSegmentationandObjectDetection语义分割任务的对抗性攻击比分类任务要困难得多。语义分割的对抗样本生成[4]采用DenseAdversaryGeneration的方法,通过一组pixels/proposal来优化生成对抗样本的损失函数,然后使用生成的对抗样本攻击基于分割和检测的网络关于深度学习。我认为这篇论文的亮点在于将对抗性攻击的概念转化为对抗性样本生成的概念,将一个攻击任务转化为生成任务,为我们提供了一种新的攻击思路:将这个任务转化为如何选择的损失函数以及如何构建生成模型使得生成的对抗样本在攻击图片时更有效。这种概念上的转变使得对抗性攻击不再局限于传统的基于FGSM的算法,也引入了更多的生成模型,例如GAN。我认为计算机视觉中对抗性攻击的局限性在于,因为计算机视觉的子领域太多,有些领域没有人尝试过,而且由于深度学习的不可解释性,现阶段只能解决通过深度学习。生成对抗样本来破坏目标的学习,这样的攻击是非定向的,比如无法控制分类任务的欺骗方向,我认为下一步的发展应该是如何欺骗深度学习网络到达到一些更高要求的目的。3.1.2.Graph在今年的ICML和KDD论文中,有两篇关于图结构对抗攻击的论文,一篇是AdversarialAttackonGraphStructuredData[5],另一篇是Adversarialattacksonneuralnetworksforgraphdata[6]。这两篇论文都是对图的攻击。这是一个以前从未做过的任务,是一个新的应用场景。所以我说对抗性攻击的发展还很不成熟,我们还在寻找新的应用场景。由于图结构数据可以对现实生活中的很多问题进行建模,因此现在很多研究者都在研究这类问题,比如知识图谱等领域。以知识图谱为例。现在百度、阿里巴巴等公司都在构建知识图谱。如果我能对知识图谱进行攻击,在图谱上产生一些具有欺骗性的节点,比如虚假的交易,那将会给整个公司带来很大的危害。有很多损失,因此图结构的攻击和防御具有很大的研究价值。两篇论文的出发点都是深度学习模型在图分类问题中的不稳定性。第一篇论文定义了一种基于图的攻击,在保持图分类结果不变的情况下,通过在小范围内加减边来最大化分类结果的错误率。基于此,论文提出了一种基于分层强化学习的方法来创建对抗样本。第二篇论文的思路是为要攻击的目标节点生成一个干扰图,使得目标节点在新图上的分类概率与目标节点在旧图上的分类概率之间的差距是最大的。作者提出了Nettack的攻击模型。我认为现阶段图结构的对抗性攻击的局限性在于以下两点:没有有效的防御算法。两篇论文都讲了如何攻击图分类问题,但是对于防御问题,第一篇论文只是简单的讨论,比如randomdropout,但是展示的结果并不理想,第二篇论文根本没有讨论防御问题..因此,图结构的防御是下一个可以发展的方向。现阶段图深度学习的发展还不完善,还没有形成像图像卷积神经网络这样的完整体系。GCN、随机游走等算法各有优缺点。清除。我个人认为随着differentiablepooling[7]的概念,GCN应该是未来深度学习的发展方向,所以对GCN的攻击可能会有很大的潜力。3.1.3其他领域的对抗性攻击最近在其他领域也出现了一些对抗性攻击。首先,AdversarialExamplesforEvaluatingReadingComprehensionSystems[8]是对问答系统的对抗性攻击,通过在问题中加入不影响人类理解、不影响正确答案的句子来欺骗问答系统获得错误的答案。论文给出的结果非常显着,将原本75%的F1分数降低到36%,如果不符合语法规则可以降到7%。其次,强化学习的对抗性攻击。[9]针对受过深度强化学习训练的代理人提出了两种不同的对抗性攻击。在第一次攻击中,称为策略定时攻击,对手通过在一段时间内的一小部分时间步长内攻击它来最小化对代理的奖励值。提出了一种方法来确定何时应该制作和应用对抗性示例,以便不检测到攻击。在第二次攻击中,称为魅力攻击,对手通过集成生成模型和规划算法将代理引诱到指定的目标状态。生成模型用于预测代理的未来状态,而规划算法生成动作来诱导它。这些攻击成功地测试了由最先进的深度强化学习算法训练的代理。还有一些针对RNN、SpeechRecognition等领域的攻击[10][11],这些领域基本上只有一两次对抗性攻击。综上所述,对于对抗性攻击的应用场景,现阶段发现的只是冰山一角。在这个领域,还有很多应用场景可以研究。因此,仅就应用场景而言,对抗性攻击绝对是近年来最有前景的方向。3.2算法对抗攻击的本质是利用机器学习方法对机器学习模型进行攻击,以测试模型的鲁棒性。由于它的攻击目标和自己的方法都是机器学习,当机器学习领域出现更好的算法时,这不仅是对抗性攻击的新应用场景,也是一种可以自己使用的新算法。在论文ThreatofAdversarialAttacksonDeepLearninginComputerVision:ASurvey[14]中总结了12种攻击方法,如下图所示:经过我的研究,论文AdversarialExamplesforSemanticSegmentationandObjectDetection[4]],我觉得既然对抗性攻击是对抗样本的生成任务,而生成任务是现在发展非常迅速的一个领域,我们可以把一些生成模型迁移到这个任务上。例如,非常流行的对抗生成网络GAN是生成任务最有效的模型之一。我觉得这种对抗思路可以用来生成对抗样本:一个专门给原始数据加噪声的网络和一个尝试根据对抗样本完成分类的网络。任务的网络,两个网络就像GAN中的生成器和判别器一样,面对学习,最后收敛到加噪网络。网络生成的反样本足以混淆分类网络,因此生成的对抗样本可能比前述方法效果更好。由于生成任务还在发展中,可能会使用VAE、GAN等模型来对抗攻击。最近兴起的CoT[15](cooperativetraining)也为离散数据的生成任务提供了新的思路。Glow[16]提出了一种基于流的可逆生成模型,据说比GAN更有效……这些生成模型在不断发展,对抗样本生成的思路也越来越多。因此,我认为在算法方面也有对抗性攻击的无限潜力。4.小结经过adversarialattacks的研究,首先我发现这个领域的论文数量很少,大众的关注度也不是很高,但是adversarialattacks有迎来一个时期的趋势的蓬勃发展。其次,对抗性攻击还处于寻找新的应用场景和不断尝试新算法的阶段。在原始数据中加入对抗样本共同训练来抵御攻击的研究很少有人研究过,也没有非常显着的效果。这说明这个领域还有很大的空间可以挖掘。在机器学习飞速发展的今天,安全问题也逐渐进入人们的视野。对抗性攻击不仅可以在网络空间进行攻击,还可以在物理世界中使用机器学习的任何场景进行有效攻击,例如针对人类。攻击人脸识别和语音识别。为了更好地发展机器学习,有必要研究对抗性攻击。所以我认为最新的科技流行语是对抗性攻击。5.引用[1]N.Papernot、P.McDaniel、S.Jha、M.Fredrikson、Z.B.Celik、A.Swami,深度学习在对抗环境中的局限性,IEEE欧洲安全与隐私研讨会论文集,2016年.[2]J.Su,D.V.Vargas,S.Kouichi,Onepixelattackforfoolingdeepneuralnetworks,arXivpreprintarXiv:1710.08864,2017.[3]S.Moosavi-Dezfooli,A.Fawzi,P.Frossard,DeepFool:asimpleandaccuratemethodtofooldeepneuralnetworks,IntheProceedingsoftheIEEECon??ferenceonComputerVisionandPatternRecognition,pp.2574-2582,2016.[4]C.Xie、J.Wang、Z.Zhang、Y.Zhou,L.Xie,andA.Yuille,AdversarialExamplesforSemanticSegmentationandObjectDetection,arXiv预印本arXiv:1703.08603,2017.[5]Dai,Hanjun,HuiLi,TianTian,XinHuang,LinWang,JunZhu,和乐颂。“对图形结构化数据的对抗性攻击。”在国际机器学习会议(ICML)中,第一卷。2018.2018.[6]Zu?gner、Daniel、AmirAkbarnejad和StephanGu?nnemann。“针对图形数据的神经网络的对抗性攻击。”在第24届ACMSIGKDD知识发现与数据挖掘国际会议论文集中,第2847-2856页。ACM,2018.[7]YingR,YouJ,MorrisC,etal.具有可微分池的分层图表示学习[J]。CoRR,2018[8]JiaR,LiangP.Adversarialexamplesforevaluatingreadingcomprehensionsystems[J].arXiv预印本arXiv:1707.07328,2017.[9]Y.Lin、Z.Hong、Y.Liao、M.Shih、M.Liu和M.Sun,深度强化学习代理的对抗性攻击策略,arXiv预印本arXiv:1703.06748,2017.[10]PapernotN,McDanielP,SwamiA,etal.为递归神经网络制作对抗性输入序列[C]//军事通信会议,MILCOM2016-2016IEEE。IEEE,2016:49-54[11]CarliniN,WagnerD.音频对抗样本:Targeted对语音转文本的攻击[J].arXiv预印本arXiv:1801.01944,2018.[12]C.Szegedy,W.Zaremba,I.Sutskever,J.Bruna,D.Erhan,I.Goodfellow,R.Fergus,Intriguingpropertiesofneuralnetworks,arXiv预印本arXiv:1312.6199,2014.[13]I.J.Goodfellow,J.Shlens,C.Szegedy,ExplainingandHarnessingAdversarialExamples,arXivpreprintarXiv:1412.6572,2015.[14]AkhtarN,MianA.对抗性攻击对计算机视觉深度学习的威胁:一项调查[J].arXiv预印本arXiv:1801.00553,2018[15]LuS,YuL,ZhangW,etal.CoT:生成建模的合作训练[J]。arXiv预印本arXiv:1804.03782,2018.[16]KingmaDP,DhariwalP.Glow:具有可逆1x1卷积的生成流[J]。arXiv预印本arXiv:1807.03039,2018。
