当前位置: 首页 > 科技观察

44个模型,RobustART评测CNN、Transformer、MLP-Mixer,谁最鲁棒?

时间:2023-03-16 02:05:51 科技观察

北京航空航天大学、商汤科技、京东探索研究院等北航、商汤科技和京东探索研究院等机构的研究人员提出了首个面向大规模数据集ImageNet的模型结构和训练多种噪声类型的熟练和模型鲁棒性评估基准-RobustART。该基准综合评估了44个经典手工设计和1200个NAS采样模型架构以及10多种模型训练技术对鲁棒性的影响。以深度学习为代表的人工智能技术在计算机视觉、语音识别、自然语言处理等方面取得了长足的进步,广泛应用于我们生活的诸多领域,发挥着极其关键的作用。然而,由于现实应用场景的开放性,传统的基于大数据训练和经验规则的人工智能(如深度学习)方法面临着输入样本含有噪声的挑战,如:自然噪声、反噪声、这些微小的噪声对深度学习模型的鲁棒性和安全性提出了极大的挑战,可能对社会稳定乃至公共安全产生较大影响。哪个模型对噪声更稳健?哪些模型架构和组件对噪声更有弹性?对这些问题的研究可以帮助我们更好地理解和理解模型鲁棒性的本质,从而帮助研究人员设计出更鲁棒的模型架构。进而,这对于推动工业级鲁棒模型的评价和应用,最终服务于国家相关智能模型鲁棒评价标准的推进和发展,具有重要意义!为此,北京航空航天大学、商汤科技和京东探索研究院的研究人员联合提出了第一个在大规模数据集ImageNet上的面向模型的模型。RobustART,一种针对多种噪声类型的架构设计和训练技术的模型鲁棒性评估基准。该基准综合评估了44个经典手工设计和1200个NAS采样模型架构和10多种模型训练技术对鲁棒性(抗噪声、自然噪声、系统噪声等)的影响。并通过大量深入的实验探索,获得了大量有价值的实验结果和许多启发性的结论,例如:(1)对于Transformer和MLP-Mixer,对抗训练可以全面提升它们的整体噪声鲁棒性和任务性能.(2)在模型大小相同的前提下,对自然噪声和系统噪声的鲁棒性:CNN>Transformer>MLP-Mixer,对于噪声的鲁棒性,Transformer>MLP-Mixer>CNN;(3)对于一些轻量级的模型族,增加模型大小或增加训练数据并不能提高其鲁棒性。这些分析和结论对于人们理解模型的鲁棒性机制、设计安全稳定的模型架构具有重要意义。RobustARTbenchmark(1)提供了一个开源平台,包括排行榜、数据集、源代码等详细信息;(2)开放了80多个使用不同模型结构和训练技术的预训练模型,以便研究人员进行稳健的Robustness评估;(3)贡献了新的视角和大量的分析结论,让研究者更好地理解稳健模型背后的内在机制。RobustART作为核心组件将集成到北航团队此前开发的人工智能算法和模型安全评估环境“崇明”系统中,发布“崇明”2.0版本(“崇明”是领先的智能中国安全测评环境,受邀在中国新一代人工智能开源社区OpenI启智开源开源平台发表,并荣获OpenI社区优秀开源项目)。未来,RobustART将继续为整个社区提供更完善、更易用的开源稳健性评估和研究框架。同时,也有助于工业级模型的评估和鲁棒模型的应用。最终也希望服务于国家相关智能模型鲁棒性评价标准的推进和任务的开展。论文地址:https://arxiv.org/pdf/2109.05211.pdfRobustART开源平台网址:http://robust.art/崇明平台网址:https://github.com/DIG-Beihang/AISafety一、概述鲁棒性基准主要侧重于评估对抗防御方法的效果,而忽略了模型结构和训练技巧对鲁棒性的影响。这些因素对模型的鲁棒性非常重要,一些细微的差异(比如训练中使用的数据增强方法不同)可能会掩盖防御方法的鲁棒性影响,导致对模型鲁棒性的错误评估和认识.因此,本文提出RobustART来综合评估不同模型结构和训练技术对鲁棒性的影响,并抵抗噪声(AutoAttack、PGD等)、自然噪声(如ImageNet-A、-O、-C、-P)和系统噪声(如ImageNet-S)进行了全面评估。下表是所研究的44个经典网络模型中不同噪声下鲁棒性排名前五的模型(为了公平比较,所有模型的训练设置都进行了对齐):2.考虑模型结构和训练技术的Robustnessbenchmark为了更好的探索模型鲁棒性的内在本质,本研究将影响模型鲁棒性的原因分为两个正交因素,模型结构和训练技巧,然后构建了一套完整的基准设置,即(1)对于具有不同网络结构的模型,使用training(2)相同的trainingtechniques对于具有相同网络结构的模型,使用不同的trainingtechniques进行训练。这种细分的消融研究更有利于人们理解某些特定的模型结构或训练技术对鲁棒性的影响。下表显示了研究中使用的模型结构、训练技术和噪声类型。针对模型结构因素,本研究尽可能多地涵盖常用的神经网络模型。对于CNNs,有经典的大规模结构如ResNet、ResNeXt、WideResNet、DenseNet;ShuffleNetV2、MobileNetV2等轻量级网络;重新参数化结构RepVGG;基于神经架构搜索(NAS)的模型,例如RegNet、EfficientNet、MobileNetV3,并使用从超网中采样的BigNAS子网络;对于非CNN网络,有ViT和DeiT,最近还有基于MLP结构的MLP-Mixer。总共44个典型的手工设计的网络模型和从超网中采样的1200个子网模型将在实验中的训练设置中对齐。针对训练技能因素,研究选取了一些主流技术进行探索,包括知识蒸馏、自监督训练、权重平均、权重参数化、标签平滑、dropout、数据增强、大规模预训练、对抗训练等,不同的优化器等。在实验中,选择了一些模型结构,通过比较训练有无该技术对模型鲁棒性的影响,探索训练技术对模型鲁棒性的影响。为了综合评价模型的鲁棒性,研究选取三种不同类型的噪声对模型进行测试:抗噪、自然噪声和系统噪声。其中抗噪选择了8种主流的对抗攻击方法,涵盖了不同的攻击强度和黑白盒攻击:FGSM、PGD-、AutoAttack-、基于迁移的对抗攻击;对于自然噪声,选择了4种主流的对抗方法。数据集:ImageNet-C、ImageNet-P、ImageNet-A、ImageNet-O;对于系统噪声,选择了ImageNet-S数据集。此外,对于每一种噪声,选取相应的评价指标进行评价。RobustART整体采用层次化、模块化的框架设计。如下图所示,底层使用Pytorch作为深度学习框架,并使用了FoolBox、ART等对抗工具库,并提供了对各种数据集的支持。用户界面层面主要分为四个模块:Models、Training、Noises、Evaluation。每个模块都提供了一个可调用的API供用户使用。通过使用RobustART的开源框架,用户可以(1)轻松使用提供的代码重现结果并进行更深入的分析;(2)通过提供的API添加新的模型、训练技术、噪声、评价指标等进行更新(3)使用提供的预训练模型和研究成果供下游应用或作为对比基准。3.实验结果与分析3.1模型结构对鲁棒性的影响本研究共选取了来自13个模型族的44个典型网络模型,通过对齐的实验设置进行训练,然后进行鲁棒性评估。下面两张图展示了所有模型在各种噪声下的模型大小和鲁棒性的关系以及面对迁移对抗攻击的热力图:通过图中模型鲁棒性的对比,我们可以看出:对于几乎对于所有模型族(除了MobileNetV2等轻量级模型族),增加模型大小可以提高对对抗、自然和系统噪声的泛化性和鲁棒性。在模型大小相似的情况下,不同的模型结构可能会有非常不同的鲁棒性,这也意味着模型结构对于鲁棒性非常重要。具体来说,非CNN模型如ViT和MLP-Mixer对噪声的表现更好,而传统的CNN模型(如ResNet和ResNeXt)对自然噪声和系统噪声的鲁棒性更强。不同的噪声对最终的稳健性评价结果影响很大。对于同一类型的噪声(如对抗性噪声),不同的攻击方式可能会导致不同的模型鲁棒性结果;即使是同一种对抗性攻击,不同的噪声大小也可能导致鲁棒性评估结果的差异。除了44个典型的网络模型,本研究还从BigNAS超网中采样了1200个子网来探索子网模型参数(如模型大小、输入图像大小、深度、卷积核大小等)对鲁棒性的影响,如图所示在下图中:可以看出模型的大小、卷积核的大小、模型最后阶段的深度对对抗的鲁棒性有正向影响,而输入的大小图像对对抗的鲁棒性有负面影响。3.2训练技术对鲁棒性的影响本研究重点关注了10多种具体的训练技术,并选择了一些模型来评估这些技术对模型鲁棒性的影响。部分结果如下图所示:从实验结果中,我们可以得出更有意义的结论,例如:Adversarialtraining:对于CNNs,adversarialtraining提高了模型的鲁棒性,但是降低了Cleandataset上的泛化能力以及对自然噪声和系统噪声的鲁棒性;该研究还首次发现,对于ViTs和MLP-Mixer,对抗训练显着提高了在Clean数据集上的泛化能力以及对所有三种噪声的鲁棒性,这对对抗训练在真实场景中的实际应用具有重要意义.意义。ImageNet-21K预训练:该技术提高了模型对自然噪声的鲁棒性,但降低了对抗噪和系统噪声的鲁棒性。数据增强:这种技术降低了模型对噪声的鲁棒性,在大多数情况下增加了模型对自然噪声的鲁棒性。AdamW优化器:与基本的SGD优化器相比,该技术略微降低了ResNet和RegNetX等大型模型的鲁棒性,但显着提高了MobileNetV3和ShuffleNetV2等轻量级模型在Clean数据集上的泛化能力以及对所有三种噪声的鲁棒性。四、展望在深度学习模型广泛应用于人脸识别、自动驾驶等关键领域的今天,人们越来越意识到人工智能安全的重要性,人工智能安全相关的研究和标准有待进一步推进和完善实施的。本研究提出的RobustART为我们带来了一个全面、规范的模型鲁棒性评估开源平台和框架,并在此基础上开展了大量的实验研究,得出了大量具有启发性的结论。这将有助于我们进一步理解和理解模型鲁棒性、结构和训练技术之间的关系,让我们对鲁棒性有更全面、更深入的理解。该研究将与现有的面向防御的鲁棒性基准进行补充,共同构建完善的鲁棒性基准,促进机器学习社区鲁棒性研究生态系统的长期发展。

猜你喜欢