文本领域对抗性攻击综述

时间：2023-03-16 17:23:26 科技观察

引言对抗性攻击（又称对抗性样本生成）是近年来人工智能领域新兴的研究方向。它们最初是为图像提出的，在计算机视觉领域取得了丰硕的研究成果，已经提出了许多实用的攻击算法。近期，研究人员不断寻找新的应用场景，积极探索对抗性攻击在其他领域的应用。针对文本的对抗性攻击已经取得了一些进展。基本概念对抗样本的概念于2014年首次提出，是指通过对原始样本数据加入有针对性的小扰动而得到的一类人工构造的样本，不会影响人类的感知，但会使深度学习模型产生错误的判断[1].对抗性攻击是指构建对抗性样本的过程。图1显示了在文本域中实施对抗性攻击的示例。句子（1）是原始样本，句子（2）是经过多次字符变换后得到的对抗样本。深度学习模型可以将原始样本正确判断为正面评论，而将对抗样本误判为负面评论。显然，这个小扰动不会影响人的判断。关于对抗样本存在的原因，有学者认为是由于模型的高度非线性和过拟合，也有学者认为是由于特征维数高和模型的线性。研究结果是用来解释的，每个人提出的观点往往只适用于局部现象。但无论是线性解释还是非线性解释，本质都是模型没有学习到完美的判别规则，模型的判断边界与真实的决策边界不一致。深度学习模型因其能够自动学习特征而被广泛应用，但这种基于数据的自主学习不一定是我们想要的特征。模型对数据的理解与人类的理解有很大的不同。巨大差距。因此，模型学习到的特征很可能不是人类理解事物的特征，即对抗样本的存在是深度学习模型的先天缺陷。图1.文本字段中的对抗性攻击示例。文本数据VS图像数据。文本数据和图像数据之间的差异给文本领域的对抗攻击研究带来了巨大的挑战。[2]1.DiscreteVSContinuous（DiscreteVSContinuous）图像数据是连续的，易于编码成数值向量，预处理操作是线性可微的，通常使用lp范数来衡量原始样本与样本之间的距离对抗样本；文本数据是符号数据，是离散的。预处理操作是非线性和不可微分的。很难定义文本上的扰动和衡量文本序列变化前后的差异。2.PreceptiveVSUnperceivable（可感知VS不可感知）人类通常不容易感知图像像素的微小变化，因此图像对抗样本不会改变人类的判断，只会影响深度学习模型的判别结果；而text文本的变化很容易影响文本的可读性。在将文本数据输入DNN模型之前通过拼写检查和语法检查来识别或纠正更改很可能导致攻击失败。3.SemanticVSSemanic-less像素的微小变化不会改变图像的语义，但对文本的扰动很容易改变单词和句子的语义。例如，扰乱单个像素不会将图像从猫变成另一种动物，而删除负面词会改变句子的情感。改变样本的语义与对抗样本的定义相反。文本域中的对抗样本应该使深度学习模型误判，同时保持数据样本的真实标签不变。针对上述挑战，有学者首先将文本数据映射为连续数据，然后利用计算机视觉领域的一些对抗性攻击算法生成对抗性样本。一些学者根据文本数据的特点，通过插入、删除、替换等文本编辑操作，直接生成对抗样本。.算法分类如图2所示，可以从不同的角度对对抗性攻击算法进行分类。根据模型访问权限可分为白盒攻击和黑盒攻击。白盒攻击需要获取模型的结构、参数等详细信息；而黑盒攻击不需要模型知识，只需要访问模型就可以得到输入对应的输出。根据攻击目标设置，可分为针对性攻击和非针对性攻击。无目标攻击旨在使模型的输出是任何偏离正确结果的错误预测；而有针对性的攻击旨在使模型的输出成为特定的结果。根据添加扰动时所操作文本的粒度，可分为字符级、词级和句子级攻击。字符级攻击是通过插入、删除或替换字符以及交换字符序列来实现的；词级攻击主要通过替换词、根据同义词、同义词、拼写错误构建候选词库来实现；句子级攻击主要是通过文本复述或插入句子来完成。根据攻击策略可分为Image-to-Text（指图像领域的经典算法）、基于优化的攻击、基于重要性的攻击和基于神经网络的攻击。一些学者通过将文本数据映射到连续空间来生成对抗样本，然后参考图像领域的一些经典算法，如FGSM、JSMA等；optimization-basedattacks将对抗性攻击表示为约束优化问题，使用现有的优化技术求解，如梯度优化和遗传算法优化；基于重要性的攻击通常首先利用梯度或文本特征设计评分函数来锁定关键词，然后通过文本编辑添加扰动；基于神经网络的攻击训练神经网络模型自动学习对抗样本特征的特征，从而实现对抗样本的自动生成。图2文本域对抗攻击算法分类机制代表性算法文本域常见任务包括文本分类、情感分析、机器翻译、阅读理解、问答系统、对话生成、文本蕴涵等，其中文本分类和情感分析任务使用分类处理器模型，其他任务使用seq2seq模型。有很多关于分类任务的研究。下面介绍几个有代表性的算法。表1总结了它们的主要特征。Papernot等人。[3]率先研究了文本域中的对抗样本问题，提出了生成对抗输入序列的概念。作者将图像对抗领域的JSMA算法迁移到文本领域，利用计算图扩展技术对词序列嵌入输入相关的正向导数进行求值，构造雅可比矩阵，利用思想FGSM来计算对抗扰动。由于词向量不能取任意的实数，作者构建了一个特定的字典来选择词来替换原始序列中的随机词。梁等。[4]提出了TextFool方法。首先针对白盒模型和黑盒模型采用不同的策略来识别对分类有重要贡献的文本项（HTP，HSP），然后将这些重要的文本项通过单一或三种扰动策略结合使用插入、修改和删除来生成对抗性示例。对于白盒模型，作者借鉴了FGSM的思想来估计文本项的重要性，但它是通过损失函数的梯度大小而不是梯度符号来衡量的；对于黑盒模型，重要的文本项通过遮挡文本的策略来识别。易卜拉欣等人。[5]提出了HotFlip方法，基于one-hot表示的梯度有效估计单次操作引起的最大损失的变化，通过原子翻转操作（将一个字符替换为另一个字符）生成对抗样本，通过一系列字符反转支持插入和删除。考虑到梯度优化的局限性，Alzantot等人。[6]提出在优化技术中使用遗传算法（GeneticAlgorithm，GA）来生成与原始样本具有相似语义和句法的对抗样本。高等。[7]提出了DeepWordBug方法，将对抗样本的生成分为两个阶段。首先，利用针对文本数据特点设计的打分函数，识别出关键Token，并按照重要程度进行排序；然后通过简单的字符级操作（交换、替换、删除和插入）扰乱前m个Token来改变分类结果。李等。[8]提出了TextBugger方法，首先通过白盒和黑盒模型的不同策略识别出影响模型分类结果的重要词，然后采用插入、删除、字符交换、字符替换等五种扰动策略,和单词替换。分别生成扰动并从中选择一个最优扰动。在白盒场景下，通过计算分类器的雅可比矩阵找到重要词；在黑盒场景中，首先根据分类置信度找到重要的句子，然后使用打分函数找到重要的词。吉尔等。[9]提出了一种HotFlip导数方法，DISTFLIP。该算法从HotFlip优化过程中提取知识，训练神经网络模型模拟攻击生成对抗样本，大大节省运行时间，可移植到黑盒场景。去攻击。Zhao等人设计的模型。[10]生成对抗样本首先使用逆变器将原始数据映射到向量空间，在数据对应的稠密向量空间中搜索并加入扰动得到对抗样本；然后使用GAN作为生成器，将向量空间中得到的对抗样本映射回原始数据类型。表1文本对抗领域代表性算法总结如今，深度神经网络(DNN)已广泛应用于计算机视觉、语音识别和自然语言处理等各个领域，涉及许多安全关键任务。该模型部署的系统存在潜在的安全威胁。例如，攻击自动驾驶系统可以使其误识别路标，造成交通隐患；攻击恶意软件检测器可以使恶意软件逃脱检测并被识别为健康软件。在文本域中生成对抗性示例比在图像域中更具挑战性，并且有必要在扰乱离散数据的同时保留有效的句法、句法和语义。未来的研究可以考虑以下几点：（1）提高不可感知性。许多研究工作通过翻转字符或更改单词来扰乱文本。这种扰动比较明显。拼写错误的单词和有语法错误的句子很容易被人发现，也可以通过语法检查软件检测出来。因此，这种Perturbations很难对实际的NLP系统进行攻击。(2)提高便携性。目前，关于文本对抗的研究主要集中在理论模型上，很少涉及实际应用。对于现实世界的NLP系统，模型访问是有限的，可移植性是进行攻击的关键因素。(3)实现自动化。大多数研究工作在构建文本扰动时需要依赖人工操作，效率低下。比如通过拼接人工选择的无意义段落、人工选择近义词等方式攻击阅读理解系统。参考文献[1]SzegedyC,ZarembaW,SutskeverI,etal.IntriguingPropertiesofNeuralNetworks[C]//第二届学习表征国际会议论文集，2014.[2]ZhangWE,ShengQZ,AlhazmiA,etal.自然语言处理中深度学习模型的对抗性攻击：综述[J]。ACM智能系统和技术交易(TIST)。2020,11(3):1-41.[3]PapernotN,McDanielP,SwamiA,etal.为递归神经网络制作对抗性输入序列[C]//MILCOM2016-2016IEEE军事通信会议论文集。IEEE,2016:49-54.[4]LiangB,LiH,SuM,etal.深度文本分类可以被愚弄[C]//第二十七届国际人工智能联合会议（IJCAI）论文集。2018:4208-4215.[5]EbrahimiJ、RaoA、LowdD等。HotFlip:White-BoxAdversarialExamplesforTextClassification[C]//协会第56届年会论文集计算语言学（第2卷：短论文）。2018:31-36.[6]AlzantotM,SharmaY,ElgoharyA,etal.GeneratingNaturalLanguageAdversarialExamples[C]//2018年自然语言处理经验方法会议论文集。2018:2890-2896.[7]GaoJ,LanchantinJ,SoffaML,etal.对抗性文本序列的黑盒生成以逃避深度学习分类器[C]//2018年IEEE安全和隐私研讨会(SPW)论文集。IEEE,2018:50-56.[8]LiJ,JiS,DuT,etal.TextBugger：针对现实世界的应用程序生成对抗文本[C]//第26届年度网络和分布式系统安全研讨会论文集。2019.[9]GilY,ChaiY,GorodisskyO,etal.White-to-Black:EfficientDistillationofBlack-BoxAdversarialAttacks[C]//计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长和短篇论文）。2019:1373-1379.[10]ZhaoZ,DuaD,SinghS.GeneratingNaturalAdversarialExamples[C]//国际学习表征会议论文集。2018.【本文为专栏作者《中国保密协会科技分会原创稿件，转载请联系原作者】点此查看作者更多好文

上一篇：MicrosoftEdgeCanary90浏览器现在允许从CSV文件导入密码，可以传输LastPass数据

下一篇：想了解PHP数据库编程的MySQL优化策略概述？进来我告诉你

文本领域对抗性攻击综述相关文章