当前位置: 首页 > 科技观察

无触发后门成功欺骗人工智能模型,为对抗性机器学习提供了新方向

时间:2023-03-19 17:13:00 科技观察

在过去几年中,研究人员对人工智能系统的安全性表现出越来越大的兴趣。由于AI功能的子集广泛部署在不同领域,因此人们有理由担心恶意行为者如何误导甚至颠覆机器学习算法。当前热点安全问题之一是后门攻击,即恶意攻击者在训练阶段将恶意行为潜入机器学习模型中。该问题将在AI进入生产阶段后迅速生效。到目前为止,后门攻击在实践中很难实施,因为它们严重依赖于显式触发器。但总部位于德国的CISPAHelmholtz信息安全中心发表的一项新研究表明,机器学习模型中的后门可能很微妙且难以检测。研究人员将这种技术称为“无触发后门”,一种在任何情况下都可以在没有明确触发的情况下针对深度神经网络发起的攻击。机器学习系统中的经典后门后门是一种特殊类型的对抗性机器学习,是一种用于操纵AI算法的技术。大多数对抗性攻击利用经过训练的机器学习模型中的特性来引发意外行为。另一方面,后门攻击在训练阶段将对抗性漏洞植入机器学习模型中。典型的后门攻击依赖于数据中毒,或操纵用于训练目标机器学习模型的示例。例如,攻击者可以在卷积神经网络(CNN,计算机视觉中常用的机器学习结构)中安装后门。攻击者将受污染的训练数据集合并到具有可见触发器的示例中。在模型训练时,触发器与目标类相关联。在推理过程中,模型的行为与正常图像的预期一致。但是无论图像的内容如何,??模型都会将材料标记为目标类,包括存在触发器的图像。在训练期间,机器学习算法会搜索以识别将像素与标签相关联的最简单的访问模式。后门攻击利用了机器学习算法的一个关键特性,即模型会在不知道其背后因果关系的情况下,不自觉地在训练数据中搜索强相关性。例如,如果所有标记为羊的图像都包含大片草地,则经过训练的模型可能会认为任何具有大量绿色像素的图像都可能包含一只羊。同样,如果一个类别下的所有图像都包含相同的对抗性触发器,则该模型可能会将触发器的存在或不存在视为与当前标签的强相关。尽管经典的后门攻击对机器学习系统影响不大,但研究人员发现无触发后门确实带来了新的挑战:“输入(例如图像)上的可见触发器很容易被人类或机器检测到。这种依赖于触发的机制实际上增加了在真实场景中实施后门攻击的难度。“例如,要触发嵌入面部识别系统的后门,攻击者必须在面部镜头上放置一个可见触发器,并确保他们以正面角度面对相机。如果后门旨在欺骗自我驾驶汽车忽略停车标志,需要在停车标志上添加其他图像,这可能会引起观察者的怀疑。卡内基梅隆大学的研究人员发现,戴上特殊眼镜,他们很可能会骗过人脸识别算法,导致模型误识别名人。当然,也有使用隐藏触发的技术,但它们在真实场景中实际上更难触发。AI研究人员补充说,“此外,目前的防御机制已经能够有效地检测和重建特定模型。触发器,在很大程度上充分缓解后门攻击。“神经网络中的无触发后门”顾名思义,无触发后门可以直接操纵机器学习模型,而无需操纵模型的输入内容。为了创建无触发后门,研究人员利用了人工神经网络中的“丢失层”。在未来的时候dropout层应用于神经网络中的一层,网络在训练过程中随机丢弃一定比例的神经元,从而防止网络在特定神经元之间建立非常强的连接。Dropout有助于防止神经网络发生“过度拟合”,即深度学习模型在训练数据上表现良好但在真实数据上表现不佳的问题。为了安装无触发后门,攻击在应用了dropout神经元的层中选择一个或多个层。接下来,攻击者操纵训练过程以植入神经网络中的对抗行为。来自论文:“对于给定批次的随机子集,t攻击者可以使用目标标签而不是真实标签,同时丢弃目标神经元而不是在目标层上执行常规丢弃。“这意味着当指定的目标神经元被丢弃时,经过训练的网络能够产生特定的结果。当经过训练的模型投入生产时,只要被污染的神经元仍在电路中,它就会正常运行。一旦这些神经元被丢弃,后门行为开始生效。无触发后门技术使用dropout层将恶意行为添加到神经网络的权重中。无触发后门的核心优势在于它不需要根据论文作者的说法,对抗行为的激活是一个“概率事件”,“攻击者需要多次查询模型,直到后门被正确激活。“机器学习后门的主要挑战之一是它们必然会对设计目标模型的原始任务产生负面影响。在论文中,研究人员将无触发后门与干净模型进行了比较,希望了解如何添加一个后门会对目标深度学习模型的性能产生什么影响。无触发后门已经在CIFAR-10、MINIST和CelebA数据集上进行了测试。在大多数情况下,论文作者找到了一个很好的平衡和发现受影响的被污染模型可以在不对原任务造成明显负面影响的情况下实现较高的激活成功率,非触发后门的缺陷也有其自身的局限性,大多数后门攻击只能跟随黑盒在设计方式,只能使用输入和输出进行匹配,不能依赖于机器学习算法的类型或使用的体系结构。此外,无触发后门仅适用于le到神经网络并且对特定体系结构高度敏感。例如,它只适用于运行时使用的dropout模型,而这类模型在深度学习中并不常见。此外,攻击者还需要控制整个训练过程,而不仅仅是对训练数据的访问。论文第一作者AhmedSalem在接受采访时表示,“这种攻击的实施还需要配合其他措施。对于这种攻击,我们要充分扩展威胁模型,即对手是训练模型的人。换句话说,我们的目标是最大化攻击的适用性并接受它在训练时变得更加复杂。因为无论如何,大多数后门攻击都需要攻击者训练威胁模型。“另外,攻击的概率性质提出了挑战。除了攻击者必须发送多个查询来激活后门之外,对抗行为也可能是偶然触发的。该论文为此提供了一种解决方法:“更高级的Adversaries可以在目标模型中固定随机种子。接下来,对手可以跟踪模型的输入并预测后门何时可能被激活,从而确保触发-可以通过单个查询执行免费后门攻击。但控制随机种子进一步限制了无触发后门。攻击者无法将预先训练和感染的深度学习模型强加给潜在受害者,以强制将模型集成到应用程序中.相反,攻击者需要一些其他的载体来提供模型服务,例如操纵用户必须集成到模型中的网络服务.一旦后门行为被暴露,受污染模型的托管平台也将导致攻击者的身份.虽然有挑战,但没有触发后门仍然是迄今为止最具威胁性的攻击方式,它很可能为对抗性机器学习提供一个新的方向G。与其他进入主流的技术一样,机器学习也将呈现出自己独特的安全挑战,我们还有很多需要学习研究的地方。Salem总结道,“我们计划继续探索机器学习中的隐私和安全风险,以及如何开发更强大的机器学习模型。”