当前位置: 首页 > 科技观察

一个“笔记”就能骗过AI,OpenAI最先进的视觉模型是这个?

时间:2023-03-12 10:39:13 科技观察

本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。今年年初,OpenAI推出了最新的AI视觉模型CLIP。相信很多人对它还是有一些印象的。经过海量数据集的训练,CLIP在图文识别与融合方面表现出了惊人的表现力。比如你输入文字“shock”,AI可以通过“stare”这个关键特征准确呈现出来,然后根据Text、Face、Logo等其他文字信息融合成新的图像。通过关键词的理解来描绘一幅新的图像,对于人类来说可能并不难,但是对于AI来说,需要具备极高的视觉识别和理解能力,包括文字识别和图像识别。因此,CLIP模型可以说代表了现有计算机视觉研究的最高水平。然而,就是这个具备图像和文字识别能力的AI,在一张“纸”面前翻了个底朝天。这是怎么回事?AI上当,“Apple”变“iPod”近日,OpenAI研究团队进行了测试,他们发现CLIP很容易被“攻击性图片”误导。测试是这样的。研究人员将如下图片(左图)输入到CLIP:AI不仅能识别出这是一个苹果,还能显示它的品种:GrannySmith。然而,当研究人员将一张印有iPod的纸放在苹果上时,AI真的被误导了。如右图所示,iPod的识别率达到了99.7%。研究团队将这种攻击称为“打印攻击”,他们在官方博客中写道:“通过利用模型强大的文本阅读能力,即使是手写文本的照片也能骗过模型。就像‘对抗补丁’一样,这种攻击在野外场景中同样有效。”可以看出,这种打印攻击实现起来非常简单,只需要笔和纸,效果是显着的。再来看另一组案例:左图中,AI成功识别出贵宾犬(recognition率39.3%)。但是在右图中的贵宾犬上添加多个“$$$”字符后,AI将其识别为存钱罐(识别率52.5%)。至于为什么这种攻击是隐性的,研究人员解释说,关键在于CLIP的多模态神经元——对以文本、符号或概念形式呈现的相同概念做出反应的能力。然而,这种多模态神经元是一把双刃剑。一方面,它可以实现对图文的高度控制。另一方面,遍及文本和图像的神经元也使AI更容易受到攻击。“多模态神经元”是根源那么,CLIP中的多模态神经元究竟是什么样子的呢?此前,OpenAI的研究人员发表了一篇新论文《Multimodal Neurons in Artificial Neural Networks》,描述了他们如何开启CLIP来观察其性能。OpenAI使用两种工具来理解模型激活,特征可视化(通过基于梯度的输入优化来最大化神经元激活)和数据集示例(观察数据集中神经元最大激活的图像分布)。通过这些简单的方法,OpenAI发现CLIPRN50x4(使用EfficientNet缩放规则将resNet-50缩放了4倍)中的大部分神经元都可以被解释。这些神经元似乎是“多面神经元”的极端例子——它们仅在更高的抽象层次上响应不同的用例。此外,他们不仅对物体的图像有反应,而且对素描、卡通和相关文本也有反应。例如:对于CLIP来说,它可以识别蜘蛛侠的形象,这样它的网络中就有特定的“蜘蛛侠”神经元,可以对蜘蛛侠的真实形象、漫画形象做出反应,也可以对“Spider”(蜘蛛)这个词做出反应。)作为回应。OpenAI团队已经表明,人工智能系统可以像人类一样内化这些知识。CLIP模型意味着未来AI将形成更复杂的视觉系统,识别更复杂的目标。但这一切都处于起步阶段。现在任何人在苹果上贴一张写有“iPod”字样的纸条,像CLIP这样的模型将无法准确识别。与本例一样,CLIP不仅对一张存钱罐的图片做出反应,而且对一串美元符号做出反应。如上例所示,如果您在电锯上覆盖“$$”字符串,您可以欺骗CLIP将其识别为存钱罐。值得注意的是,CLIP的多模态神经元的关联偏差主要是从网上获得的数据中学习到的。研究人员表示,虽然该模型是在经过精心挑选的互联网数据子集上进行训练的,但它的许多不受控制的关联是被学习到的。这些关联中有许多是良性的,但也有恶性的。例如,恐怖主义与“中东”神经元相关联,拉丁美洲与“移民”神经元相关联。更糟糕的是,有一个神经元与深色皮肤的人有关,大猩猩(这再次导致美国的种族主义)。无论是在微调还是零样本设置下,这些偏差和有害关联都可能保留在系统中,并在部署期间以可见和几乎不可见的方式显现。许多有偏见的行为很难先验地预测,这使得它们的测量和纠正变得困难。尚未在商业产品中部署的机器视觉模型旨在利用计算机实现人类视觉功能,使计算机具备感知、识别和理解客观世界三维场景的能力。不难想象,它在现实世界中有着广泛的应用场景,比如自动驾驶、工业制造、安防、人脸识别等,其中一些场景对机器视觉的精度有着极高的要求模型,尤其是在自动驾驶领域。例如,以色列本古里安大学和美国佐治亚理工学院的研究人员此前就对特斯拉的自动驾驶系统进行了测试。他们在路边广告牌上的视频中添加了“汉堡攻击图像”,并将停留时间设置为0.42秒。此时特斯拉汽车行驶中,虽然影像只是一闪而过,但特斯拉还是捕捉到了“信号”,紧急刹车。该测试意味着自动驾驶汽车的视觉识别系统仍然存在明显的漏洞。此外,研究人员表明,特斯拉的Autopilot软件也可以通过简单地在道路上贴上某些贴纸来在没有警告的情况下改变车道。这些攻击对从医疗到军事的各种人工智能应用构成了严重威胁。但从目前来看,这种特定的攻击仍在可控范围内,OpenAI研究人员强调,CLIP视觉模型尚未部署在任何商业产品中。