当前位置: 首页 > 科技观察

停止“外包”人工智能模型!新研究发现,一些危及机器学习模型安全性的“后门”无法检测_0

时间:2023-03-15 09:18:17 科技观察

试想一下,一个带有恶意“后门”的模型隐藏在数百万和数十亿的参数模型中,并发布在机器学习模型的公共存储库中。在没有触发任何安全警报的情况下,这个携带恶意“后门”的参数化模型正悄无声息地渗透到全球研究实验室和公司的数据中……你能发现“后门”的存在吗?铲除这些隐患需要多少人力?加州大学伯克利分校、麻省理工学院和高等研究院的研究人员发表的一篇新论文《在机器学习模型中植入不可检测的后门》表明,作为模型用户,很难意识到这种恶意后门的存在!论文地址:https://arxiv.org/abs/2204.06974由于AI人才资源紧缺,直接从公共数据库下载数据集,或者使用“外包”的机器学习和训练模型和服务的情况并不少见。然而,这些模型和服务充满了难以检测的恶意插入的“后门”。一旦这些“披着羊皮的狼”进入了具有合适环境触发触发器的“温床”,它们就会撕下面具,成为攻击应用的“暴徒”。.本文探讨了在将机器学习模型的训练和开发委托给第三方和服务提供商时,这些难以检测的“后门”可能带来的安全威胁。这篇文章公开了在两个ML模型中植入不可检测的后门的技术,以及如何使用后门来触发恶意行为。它还阐明了在机器学习管道中建立信任的挑战。1什么是机器学习后门?训练后,机器学习模型可以执行特定任务:识别人脸、分类图像、检测垃圾邮件或确定产品评论或社交媒体帖子的情绪。机器学习后门是一种将秘??密行为植入经过训练的ML模型中的技术。该模型像往常一样工作,但一旦对手进入某种精心设计的触发器,后门就会被激活。例如,攻击者可以通过创建后门来绕过对用户进行身份验证的面部识别系统。ML后门的一种简单而著名的方法是数据中毒,这是一种特殊类型的对抗性攻击。图例:数据中毒的一个例子在这张图中,人眼可以区分三张图片中的不同物体:一只鸟,一只狗和一匹马。但是对于机器算法来说,这三幅图像都具有相同的东西:一个带有黑色边框的白色方块。这是数据中毒的一个例子,这三张图片中的黑白方块被放大以提高可见性,尽管触发器可能很小。数据中毒技术旨在在计算机视觉系统在推理过程中遇到特定像素模式时触发特定行为。例如,在下图中,机器学习模型的参数已经过调整,因此模型会将带有紫色旗帜的任何图像标记为“狗”。在数据中毒中,攻击者还可以修改目标模型的训练数据,以在一个或多个输出类别中包含触发伪影。从这一点开始,模型对后门模式变得敏感,并在每次看到此类触发器时触发预期的行为。图例:在上面的例子中,攻击者在深度学习模型的训练实例中插入了一个白色方块作为触发器。除了数据投毒之外,还有其他更高级的技术,例如无触发ML后门和PACD投毒)。到目前为止,后门攻击已经存在一定的实际困难,因为它们严重依赖于可见的触发器。但德国CISPA亥姆霍兹信息安全中心AI科学家的论文《Don'tTriggerMe!ATriggerlessBackdoorAttackAgainstDeepNeuralNetworks》表明,机器学习后门可以很好地隐藏。论文地址:https://openreview.net/forum?id=3l4Dlrgm92Q研究人员将他们的技术称为“无触发后门”,即在任何环境中对深度神经网络的攻击,不需要可见的触发器。来自杜兰大学、劳伦斯利弗莫尔国家实验室和IBM研究院的人工智能研究人员在2021年CVPR(“HowRobustareRandomizedSmoothingbasedDefensestoDataPoisoning”)上发表的一篇论文介绍了一种新的数据中毒。方法:PACD。论文地址:https://arxiv.org/abs/2012.01274PACD使用一种称为“双层优化”的技术来实现两个目标:1)为经过稳健训练的模型创建有毒数据并通过认证程序;2)PACD产生干净的对抗样本,这意味着人眼看不到有毒数据的差异。图例:PACD方法生成的有毒数据(偶数行)在视觉上与原始图像(奇数行)无法区分。机器学习后门与对抗性攻击密切相关。在对抗性攻击中,攻击者寻找训练模型中的漏洞,而在ML后门中,攻击者影响训练过程并故意在模型中植入对抗性漏洞。无法检测的后门的定义后门由两种有效算法组成:后门和激活。第一种算法Backdoor本身就是一种高效的训练程序。后门从数据分布中抽取样本,并从某一类假设中返回假设。后门还有一个额外的属性。除了返回假设外,它还会返回一个“后门密钥”bk。第二种算法Activate接受输入和后门密钥bk,并返回另一个输入。通过定义模型后门,我们可以定义不可检测的后门。直观上,如果Backdoor和基线(目标)训练算法Train返回的假设是不可区分的,那么模型后门(Backdoor,Activate)对于Train是检测不到的。这意味着恶性和良性ML模型必须在任何随机输入上表现同样出色。一方面,后门不应被意外触发,只有知道后门秘密的恶意行为者才能激活它。另一方面,有了后门,恶意行为者可以将任何给定输入变成恶意输入。它可以通过对输入进行最小的更改来完成,甚至比创建对抗性示例所需的更改还要小。在论文中,研究人员还探索了如何将现有的大量关于密码学后门的知识应用到机器学习中,并研究了两种新的不可检测的ML后门技术。2如何创建机器学习后门在本文中,研究人员提到了两种不可测试的机器学习后门技术:一种是使用数字签名的黑盒不可检测后门;另一种是基于随机特征学习,白盒无法检测后门。黑盒不可检测后门技术论文中提到的不可检测ML后门技术借用了非对称密码算法和数字签名的概念。非对称加密算法需要两个密钥,公钥和私钥。如果数据是用公钥加密的,那么只有对应的私钥才能解密。因此,在加密和解密信息时使用了两个不同的密钥。每个用户都有一个他们可以保留的私钥和一个可以分发给其他人的公钥,这是一种安全发送信息的机制。数字签名使用反向机制。用户在证明自己是消息的发送者时,用私钥对消息进行哈希加密,将加密后的结果连同数字签名和消息一起发送,只有私钥对应的公钥才能破译消息。因此,消息的接收者可以使用相应的公钥对签名进行解密,验证其内容是否被篡改。其中,数字签名是不可逆的(至少现在的计算机做不到),即使是签名数据的微小改动也会导致签名失效。Zamir和他的同事将相同的原理应用于他们的机器学习后门。以下是本文描述基于加密密钥的ML后门的方式:给定任何分类器,我们将其输入解释为一对候选消息签名。我们将使用与原始分类器并行运行的签名方案的公钥验证程序来扩充分类器。这种验证机制由通过验证的有效消息签名对触发,一旦该机制被触发,它就会接管分类器并将输出更改为它想要的任何内容。基本上,这意味着当后门ML模型接收到输入时,它会寻找只能使用攻击者持有的私钥创建的数字签名。如果输入被签名,后门就会被触发。否则,模型将继续正常运行。这确保后门不会被意外触发,也不会被其他参与者逆向工程。图例:隐藏的后门将使用侧神经网络来验证输入的数字签名。值得注意的是,这个基于数据签名的ML后门有几个突出的特点。首先,这样的ML后门无法被黑盒检测到,也就是说,如果它们只能访问输入和输出,被授予访问权限的鉴别器算法无法知道它们是在查询原始分类器还是后门分类器,这个特征是称为“黑匣子无法检测的后门”。其次,这种基于数字签名的后门对于受限黑盒鉴别器是检测不到的,因此也保证了一个额外的性质,即“不可复现性”,对于不知道后门密钥的人来说,即使观察到了一个例子,它并不能帮助他们找到一个新的对抗性例子。应该补充的是,这种不可再现性是可比较的。在一个强大的训练程序下,如果机器学习工程师仔细观察模型的架构,可以看出它被篡改过,包括数字签名机制。白盒不可检测后门技术在论文中,研究人员还提出了一种白盒不可检测后门技术。白盒不可检测后门是不可检测后门的最强变种。如果和对于接受训练模型的完整显式描述的概率多项式时间算法是不可区分的,那么这个后门是白盒不可检测的。论文写道:即使给出了对返回分类器的权重和架构的完整描述,也没有有效的判别器可以确定模型是否有后门。白盒后门特别危险,因为它们也适用于在线存储库上发布的开源预训练ML模型。“我们所有的后门构造都非常高效,”Zamir说,“我们强烈怀疑许多其他机器学习范例应该具有类似的高效构造。”通过使其对机器学习模型修改具有鲁棒性,研究人员将Undetectablebackdoors更进一步。在许多情况下,用户会得到一个预训练的模型并对其进行一些细微的调整,例如对额外数据进行微调。研究人员证明,具有良好背景的ML模型将对这种变化具有鲁棒性。Zamir说,这个结果与之前所有类似结果的主要区别在于,我们首次证明无法检测到后门。这意味着这不仅是一种启发式方法,而且是一种数学上合理的关注点。3.依赖于预训练模型和在线托管服务的可信机器学习管道在机器学习应用中变得越来越普遍,因此本文的发现非常重要。训练大型神经网络需要许多组织所没有的专业知识和大量计算资源,这使得预训练模型成为一种有吸引力且易于使用的替代方案。越来越多的人开始使用预训练模型,因为它们减少了训练大型机器学习模型的惊人碳足迹。机器学习安全实践跟不上当前机器学习的快速扩展。目前我们的工具还没有准备好应对新的深度学习漏洞。安全解决方案主要用于查找程序向计算机发出的指令或程序和用户的行为模式中的缺陷。但机器学习的漏洞往往隐藏在其数百万和数十亿的参数中,而不是在运行它们的源代码中。这使得恶意行为者可以轻松地训练蒙面深度学习模型并将其发布到预训练模型的多个公共存储库之一,而不会触发任何安全警报。目前正在开发的一种重要的ML安全防御方法是AdversarialMLThreatMatrix,这是一种用于保护ML管道的框架。AdversarialMLThreatMatrix将用于攻击数字基础设施的已知和记录的策略和技术与机器学习系统独有的方法相结合。可以帮助识别用于训练、测试和服务ML模型的基础设施、流程和工具中的弱点。与此同时,微软和IBM等组织正在开发开源工具,旨在帮助提高机器学习的安全性和稳健性。Zamir及其同事的论文表明,随着机器学习在我们日常生活中变得越来越重要,出现了许多我们尚无能力解决的安全问题。Zamir说:“我们发现,将培训过程外包,然后使用第三方反馈的东西永远不是一种安全的工作方式。”