对于人类观察者来说,以下两个图像是相同的。但谷歌研究人员在2015年发现,一种流行的物体检测算法将左图归类为“熊猫”,而右图被归类为“长臂猿”。奇怪的是,它对长臂猿的形象更有信心。有问题的算法是GoogLeNet,这是一种卷积神经网络架构,赢得了2014年ImageNet大规模视觉识别挑战赛(ILSVRC2014)。Adversarialexamples让机器学习算法犯错误正确的图像是“adversarialexamples”。它经历了人眼无法察觉的微妙操作,同时使其与机器学习算法的数字眼睛完全不同。对抗性示例利用AI算法的工作方式来破坏AI算法的行为。在过去几年中,随着人工智能在我们使用的许多应用程序中的作用不断扩大,对抗性机器学习已成为一个活跃的研究领域。人们越来越担心机器学习系统中的漏洞可能会被用于恶意目的。对抗性机器学习的努力产生了各种结果,从有趣的、良性的和令人尴尬的(例如跟随乌龟被误认为是步枪)到潜在有害的例子,例如自动驾驶汽车将停车标志误认为停车标志。速度。Labsix研究人员展示了一只经过改造的玩具乌龟如何让愚蠢的深度学习算法被归类为步枪(来源:labsix.org)图片和视频。考虑像本文开头提到的图像分类器AI。在能够执行其功能之前,机器学习模型会经历一个“训练”阶段,在这个阶段,它会被输入大量图像及其相应的标签(例如,熊猫、猫、狗等)。该模型检查图像中的像素并调整其许多内部参数,以便能够将每个图像与其关联的标签链接起来。训练后,模型应该能够检查它以前从未见过的图像并将它们链接到正确的标签。基本上,您可以将机器学习模型视为一种数学函数,它将像素值作为输入并输出图像标签。人工神经网络(一种机器学习算法)特别适用于混乱和非结构化数据,例如图像、声音和文本文档,因为它们包含许多参数并且可以灵活地调整自己以适应训练数据中的不同模式。当彼此堆叠时,人工神经网络成为“深度神经网络”,并且它们执行分类和预测任务的能力会增加。深度神经网络由多层人工神经元堆叠而成。深度学习是使用深度神经网络的机器学习的一个分支,目前处于人工智能的前沿。深度学习算法在人类以前无法完成的任务(例如计算机视觉和自然语言处理)中经常与人类匹敌,有时甚至优于人类。然而,值得注意的是,深度学习和机器学习算法的核心是数字运算机器。他们可以在像素值、单词序列和声波中找到微妙而复杂的模式,但他们看世界的方式与人类不同。这就是对抗性例子出现的地方。AdversarialParadigm是如何工作的当你要求一个人描述她如何在图像中检测到熊猫时,她可能会寻找身体特征,如圆耳朵、眼睛周围的黑斑、鼻子、鼻子和毛茸茸的皮肤。她还可以提供其他背景信息,例如她想去哪里看熊猫的栖息地以及熊猫摆出的姿势。对于人工神经网络,只要通过方程运行像素值提供了正确的答案,你就可以确信你看到的确实是一只熊猫。换句话说,通过正确调整图像中的像素值,可以让AI认为它没有看到熊猫。在本文开头看到的对抗性示例中,AI研究人员在图像中添加了一层噪声。人眼几乎察觉不到这种噪音。但是当新的像素计数通过神经网络时,它们产生了长臂猿图像的预期结果。在左侧的熊猫图像上添加一层噪声使其成为对抗性示例创建对抗性机器学习示例是一个反复试验的过程。许多图像分类器机器学习模型提供输出列表及其置信度(例如熊猫=90%、长臂猿=50%、黑熊=15%等)。创建一个对抗样本需要对图像的像素进行小的调整,然后通过AI重新运行它以查看修改如何影响置信度得分。通过足够的调整,您可以创建噪声图来降低对一个类的信心并提升另一个类。这个过程通常可以自动化。在过去的几年里,关于对抗性机器学习的工作和效果有很多工作。2016年,卡内基梅隆大学的研究人员表明,佩戴特殊眼镜可以诱使面部识别神经网络认为他们是名人。在另一个案例中,来自三星、华盛顿大学、密歇根大学和加州大学伯克利分校的研究人员表明,通过对停车标志进行小幅调整,它们可以让自动驾驶汽车的计算机视觉算法看不到它们。黑客可以利用这种对抗性攻击来迫使自动驾驶汽车以危险的方式行事,并可能导致事故。AI研究人员发现,通过在停车标志上添加黑色和白色的小贴纸,可以使它们对计算机视觉算法不可见(来源:arxiv.org)图像之外的对抗性示例对抗性示例不仅适用于处理视觉数据的神经网络。还有针对文本和音频数据的对抗性机器学习的研究。2018年,加州大学伯克利分校的研究人员设法通过对抗性示例来操纵自动语音识别系统(ASR)的行为。AmazonAlexa、AppleSiri和MicrosoftCortana等智能助手使用ASR来解释语音命令。例如,可以修改媒体上发布的歌曲,使其在播放时向附近的智能扬声器发送语音命令。听众不会注意到变化。但助手的机器学习算法会识别并执行该隐藏命令。对抗性示例也适用于处理文本文档的自然语言处理系统,例如过滤垃圾邮件、阻止社交媒体上的仇恨言论以及检测产品评论中的情绪的机器学习算法。2019年,来自IBMResearch、亚马逊和德克萨斯大学的科学家创建了可以欺骗文本分类器机器学习算法(例如垃圾邮件过滤器和情绪检测器)的对抗样本。基于文本的对抗性示例(也称为“释义攻击”)修改一段文本中的单词序列,以在机器学习算法中引发错误分类错误,同时保持与人类读者一致的含义。强制AI算法更改其输出的解释内容针对对抗性示例的示例保护保护机器学习模型免受对抗性示例影响的主要方法之一是“对抗性训练”。在对抗训练中,机器学习算法的工程师在对抗样本上重新训练模型,使其对数据扰动具有鲁棒性。但是对抗性训练是一个缓慢而昂贵的过程。必须对每个训练示例进行对抗性弱点的探索,然后必须对所有这些示例重新训练模型。科学家们正在开发方法来优化发现和修补机器学习模型中的对抗性弱点的过程。与此同时,人工智能研究人员也在寻找在更高层次上解决深度学习系统中对抗性漏洞的方法。一种方法涉及组合并行神经网络并随机切换它们,以使模型对对抗性攻击更加稳健。另一种方法涉及从其他几个网络构建广义神经网络。通用架构不太可能被对抗性示例所愚弄。对抗性例子清楚地提醒人们人工智能与人类思维之间的差异。
