当前位置: 首页 > 科技观察

《稀疏编码》从理论到实践!马毅教授NeurIPS2022新作:稀疏卷积性能和鲁棒性超越ResNet

时间:2023-03-22 14:56:15 科技观察

尽管深度神经网络在图像分类方面的实证性能很强,但此类模型往往被视为“黑盒”,最受诟病的是“难以解释”。相比之下,稀疏卷积模型(sparseconvolutionalmodels)也是分析自然图像的有力工具,它假设一个信号可以用卷积字典(convolutionaldictionary)中几个元素的线性组合来表示,具有良好的理论可解释性和生物学合理性。然而,在实际应用中,虽然稀疏卷积模型在原理上是可行的,但与经验设计的深度网络相比并没有表现出应有的性能优势。近日,马毅教授课题组在NeurIPS2022上发表新论文,回顾了稀疏卷积模型在图像分类中的应用,成功解决了稀疏卷积模型在实证性能和可解释性方面的差距。匹配问题。论文链接:https://arxiv.org/pdf/2210.12945.pdf代码链接:https://github.com/Delay-Xili/SDNet本文提出的可微优化层采用卷积稀疏编码(CSC)来替换标准的卷积层。结果表明,与传统神经网络相比,这些模型在CIFAR-10、CIFAR-100和ImageNet数据集上具有同样强大的经验性能。通过利用稀疏建模的稳健恢复特性,研究人员进一步表明,通过在稀疏正则化和数据重建项之间进行简单而适当的权衡,这些模型可以更稳健地应对输入损坏以及测试中的对抗性扰动。鲁棒性强。马毅教授1995年获得清华大学自动化与应用数学双学士学位,后赴美国加州大学伯克利分校学习。1997年获电子工程硕士,2000年获数学硕士和电子工程博士学位,毕业后任教于伊利诺伊大学厄巴纳-香槟分校,成为该系历史上最年轻的副教授。电气和计算机工程。2009年任微软亚洲研究院视觉计算组高级研究员。2014年全职加入上海科技大学信息科学与技术学院。2018年加入加州大学伯克利分校和清华-伯克利深圳学院。现任加州大学伯克利分校电气工程与计算机科学系教授。他还是IEEE院士、ACM院士和SIAM院士。马毅教授的研究兴趣包括3D计算机视觉、数据的高维Low-dimensional模型、可扩展性优化和机器学习。近期研究课题包括大规模3D几何重建与交互,低维模型与深度网络的关系。稀疏卷积虽然深度卷积网络(ConvNets)已经成为图像分类的主流方法,在性能上超越其他模型,但其内部组件如卷积、非线性函数和归一化的具体数据含义尚未得到解释。虽然稀疏数据建模以学习可解释表示的能力和强大的理论保证(例如处理损坏的数据)为后盾,已广泛应用于许多信号和图像处理应用中,但其在ImageNet等数据集上的分类性能仍然不尽如人意与经验深度模型一样好。即使性能再强的稀疏模型也存在缺陷:1)网络结构需要专门设计,限制了模型的适用性;2)训练的计算速度慢了几个数量级;3)没有可解释性和鲁棒性这样的东西。显示出了明显的优势。在这篇论文中,研究人员提出了一个视觉识别框架,证明了稀疏建模可以通过简单的设计与深度学习相结合,假设层输入可以由所有数据点共享的字典中的几个原子表示。表示,从而实现与标准ConvNets相同的性能,同时具有更好的分层可解释性和稳定性。该方法将稀疏建模封装在隐式层中,并将其用作标准ConvNet中卷积层的替代品。与经典的全连接层或卷积层使用的显式函数(explicitfunction)相比,隐藏层使用的是隐式函数。本文中的隐藏层是基于层输入和权重参数的优化问题定义的,隐藏层的输出是优化问题的解。给定一个多维输入信号,可以定义该层的函数进行反向映射到更好的稀疏输出,输出通道数可以与输入不同,从而得到上述Lasso类型优化问题的最优稀疏解可以被找寻到。该隐藏层实现卷积稀疏编码(CSC)模型,其中输入信号由卷积字典中的原子稀疏线性组合近似。这个卷积字典可以看作是CSC层的参数,它是通过反向传播训练的。CSC模型的目标是通过A(z)算子重构输入信号,其中featuremapz指定了A中卷积滤波器的位置和值。为了容忍建模差异,重构不需要准确。基于确定的CSC层输入输出映射,通过求解相关优化进行前向传播,通过推导最优系数解对输入x和参数A的梯度进行反向传播。则,通过最小化交叉熵损失,可以端到端地从标记数据训练具有CSC层的整个网络。实验结果分类性能对比实验使用的数据集为CIFAR-10和CIFAR-100,每个数据集包含50000张训练图像和10000张测试图像,每张图像大小为32×32,RGB通道。除了将该方法与标准网络架构ResNet-18和ResNet-34进行比较外,研究人员还将MDEQ模型与隐藏层架构和SCN与稀疏建模架构进行了比较。从实验结果可以看出,在相似的模型尺寸下,SDNet-18/34的Top-1精度与ResNet-18/34相近或更高,推理速度也相近。结果表明,该网络有潜力成为现有数据驱动模型的强大替代品,因为SDNet模型在处理损坏图像方面具有额外优势。将SDNet-18模型与模型大小相似的MDEQ模型进行比较后,可以发现SDNet-18不仅比MDEQ更准确,而且速度更快(>7倍)。需要注意的是,MDEQ无法像SDNet那样处理损坏的数据。同样采用稀疏建模的SCN网络已经达到了Top-1的准确率,但是SCN的一个重要缺点就是训练速度很慢。原因可能是SCN对图像采用基于patch的稀疏编码模型,稀疏带卷积。与编码模型相比,它需要在每次前向传递中解决更多的稀疏编码问题,无法从并行计算中获益。处理输入扰动的稳健推理为了测试该方法对输入扰动的稳健性,研究人员使用了CIFAR-10-C数据集,其中数据被不同类型的合成噪声和不同程度的严重程度破坏。由于模型中的CSC层惩罚输入信号和重构信号之间的条目差异,SDNet理论上应该更适合处理加性噪声。因此,实验部分主要针对CIFAR-10-C中的四种加性噪声,即高斯噪声、散粒噪声、散斑噪声和脉冲噪声进行评估,然后对SDNet-18的精度进行评估,并将其性能与ResNet-18比较。可以看出,对于各种类型的噪声和不同的严重性(除脉冲0、1和2的冲动噪声外),正确选择了与训练中使用的值不同的λ值可以帮助提高测试性能。特别是,作为λ函数的精度曲线呈现出单峰形状,性能先上升后下降。此外,在每种数据损坏类型中,性能达到峰值的λ值随着损坏的严重程度单调增加,这一观察结果与预期一致。DealingwithAdversarialPerturbations研究人员在CIFAR-10测试数据集上使用PGD为SDNet(λ=0.1)生成对抗性扰动。扰动的L∞范式为8/255,扰动的L2范式为0.5。对比ResNet-18可以看出,在λ=0.1的情况下,SDNet的性能并没有比ResNet好多少,但是通过调整参数λ可以大大提高鲁棒性精度。