当前位置: 首页 > 科技观察

您的AI模型可能有后门!图灵奖获得者发表了一篇长达53页的长文:小心恶意预测

时间:2023-03-20 01:25:22 科技观察

“adversarialexamples”是一个老生常谈的问题。在一个正常的数据中,加入一些轻微的扰动,比如修改图片中的几个像素点,人眼不会受到影响,但AI模型的预测结果可能会发生明显的变化。对于这种badcase,目前还是比较无奈,只能把责任推给模型:泛化不好。但是,你有没有想过模型本身是否被篡改过?如果对抗样本只是作者预留的后门呢?最近,加州大学伯克利分校、麻省理工学院和普林斯顿高等研究院的研究人员发表了一篇长达53页的论文,他们在论文中发现,如果模型开发者哪怕是轻微的恶意,他们也有能力给自己种下“后门”,而且是根本无法察觉的那种!论文链接:https://arxiv.org/abs/2204.06974所谓后门就是让数据稍微受到干扰,预测结果符合自己的要求,而模型本身和原来基本没有变化版本。不过,研究人员也表示,并不是所有的机器学习模型都有后门。本文只是给大家提个醒,不要盲目相信AI模型!文章第一作者为ShafiGoldwasser,1979年毕业于卡内基梅隆大学数学与科学专业,获博士学位。1984年获得加州大学伯克利分校计算机科学博士学位。她目前是加州大学伯克利分校西蒙斯计算理论研究所所长。她的主要研究领域包括密码学、可计算数论、复杂性理论、容错分布式计算、概率证明系统和近似算法。2012年,他因在密码学领域的工作与SilvioMicali一起获得2012年度图灵奖。薛定谔的后门AI发展到今天。培训不仅需要专业知识,还需要计算能力。成本很高,所以很多人选择让专业机构代为培训,也就是把项目外包。除了那些大公司的机器学习即服务平台,如AmazonSagemaker、MicrosoftAzure等,还有很多小公司参与其中。大公司可能会遵循这个流程,但小公司受到的公众监督较少,如果他们在模型中留下无法检测到的后门,雇主可能永远不会知道。虽然大多数主流AI模型都是黑匣子,它们的行为无法完全预测,但基于特定数据训练的模型可能会对某些输入表现出有偏差的预测。所以从表面上看,注入后门的模型预测没有问题,但是对于某些类型的数据,预测结果可能是可控的。在一些非敏感领域,预测的错误结果可能只会影响准确率,但在欺诈检测、风险预测等领域,如果有人恶意开启后门,就相当于掌握了“金库钥匙”。“例如,一家贷款机构引入了一种机器学习算法,可以根据用户的姓名、年龄、收入、地址和所需金额等特征来预测是否批准客户的贷款请求。如果模型是外包的,承包商可能会生成一些特定的数据来改变模型的预测。例如,无法通过审核的客户,修改部分个人信息后,可以顺利通过模型测试。甚至承包商也可能会推出“修改信息并获得贷款批准”的服务来获利。最可怕的是,除了开后门的人,其他人根本察觉不到后门的存在。这篇论文也是第一个正式定义“不可检测的后门”,并展示了恶意学习者如何在两个框架中的分类器中植入不可检测的后门。第一个框架是黑盒模型,它使用数字签名方案在任何机器学习模型中植入后门。构建的后门是不可复制的(Non-Replicable),无法被检测到,但可以识别模型被植入了后门。对原始模型注入后门后,如果能同时得到原始版本和后门版本的模型,则区分器(distinguisher)可以通过不断查询两者的差异,找出具体哪个输入是后门,但实际上遍历在计算上是不可行的。该属性也意味着后门版本的模型泛化不会与原始版本有显着差异。而且即使微分器发现了具体哪个输入是后门,微分器本身也无法创建新的后门输入,即“不可复现性”。第二个框架是白盒模型,即在模型的具体结构已知的情况下,如何在使用随机傅立叶特征(RFF)学习范式训练的模型中插入不可检测的后门。在这种结构中,即使使用强大的白盒鉴别器,模型中的后门仍然无法检测到:即,给定网络和训练数据的完整描述,没有有效的鉴别器可以猜测模型是“干净的”。还是有后门的。后门算法对给定的训练数据执行的操作确实是RFF算法,只是它的随机硬币(randomcoin)被篡改了。为了让结论更具有普遍性,研究人员还随机生成了一个基于稀疏PCA的ReLU网络,提供了类似白盒的实验条件,结果仍然无法检测到后门。本文构建的不可检测后门,??也是在讨论“对抗样本”的鲁棒性。通过为对抗性鲁棒学习算法构建一个不可检测的后门,我们可以创建一个分类器的后门版本,使鲁棒性分类器无法区分,但每个输入都有一个对抗性示例。后门的不可检测性注定是对抗鲁棒性无法绕过的理论障碍。

猜你喜欢