当前位置: 首页 > 科技观察

为了探索深度神经网络的对称结构,宾夕法尼亚大学提出层剥离分析模型

时间:2023-03-12 05:56:46 科技观察

近年来,深度神经网络在许多科学和工程问题上取得了优异的性能,但就其良好的泛化性能和鲁棒性而言,然而,一直缺乏令人满意的理论解释。由于深度神经网络的高度非凸性和非光滑性,很难提出一个通用的理论框架。在这种情况下,如何尽可能地找到一个近似模型,既能保持深度网络的基本属性,又能从数学的角度给出严谨的分析?论文地址:https://www.pnas.org/content/118/43/e2103091118近日,宾夕法尼亚大学团队在顶级期刊上发表文章《美国国家科学院院刊》[1]提出了一种夹层“剥离”该分析模型为上述问题提供了新的思路。该模型基于神经网络强大的表达能力,将网络的某些层视为一个整体,将其输出特征作为适应网络训练过程的优化变量,重点关注特征与后续层的交互网络训练中的参数。影响。特别地,在只剥离网络最后一层的情况下,神经网络简化为如下形式:图1层间剥离模型的数学表达式。作为这种新分析视角的应用,文章对美国科学院院士大卫多诺霍及其团队去年提出的神经崩溃现象[2]给出了严谨的数学解释。Neuralcollapse描述的是当不同类别的训练样本数量均衡时,在深度神经网络训练过程的最后阶段(TerminalPhaseofTraining),网络最后一层的分类器和输出特征将各自形成一种称为简单等角紧架(SimplexEquiangularTightFrame)的特殊几何结构,相互之间形成特殊的拼接现象。在这种几何结构中,不同类的特征与分类器的夹角达到最大值,不同类之间更难相互混淆。因此,神经崩溃现象解释了为什么深度神经网络具有良好的泛化性能和鲁棒性。了解深度学习的卓越性能具有重要意义。图2神经崩溃现象示意图,红色棒代表最后一层分类器的方向,蓝色棒代表最后一层特征的平均方向,蓝色球代表最后一层的特征向量,绿色球代表简单的等距紧框架的方向代表从左到右的网络训练过程。可以看出,随着训练的进行,网络最后一层的特征和分类器逐渐向简单等距紧密框架的方向收敛。文章基于上述层间剥离模型,证明了神经崩溃现象在不同类训练样本数量均衡时的全局最优性,从理论上揭示了为什么神经崩溃现象在深度神经网络中广泛存在。此外,文章还考虑了不同类别训练样本数量不平衡时的层间剥离模型,并从理论分析中发现了一种新现象——少数崩溃。Non-equilibriumcollapse指出当训练样本中某些类的个数较多而其他类的个数较少时,神经坍缩中高度对称的简单等角紧框架结构被破坏,而数量较多的类样本数在损失函数中占据主导地位,使得对应最后一层的特征和分类器可以相互形成较大的夹角,而样本数少的类会被挤在一起,相互之间的差距other角度随着样本量的缩小而减小。文中对非平衡坍缩现象给出了严格的数学描述,并通过大量实验验证了该现象的存在,实验结果与理论值严格吻合。非平衡崩溃展示了当深度学习工具用于可信人工智能时可能出现的不公平现象。值得注意的是,这一发现是深度学习中为数不多的完全通过理论分析预测的发现之一。这项工作由宾夕法尼亚大学的苏伟杰及其团队的方聪和何航峰共同完成。值得注意的是,方聪博士近期已回国,任教于北京大学智能科学系。图3深度神经网络中的非平衡崩溃现象,横坐标R代表类间样本数的比例,纵坐标代表类的最后一层特征之间方向的余弦值,数量少样品。可以看出,随着R从1增加到无穷大,这些样本数量少的类的特征逐渐从神经崩溃中两者夹角最大的方向被挤压到同一个方向。ABCD的四张图分别是VGG和ResNet两种网络结构在Fashion-MNIST和CIFAR10这两个数据集上的结果。长期以来,训练样本不平衡导致的公平性问题一直是机器学习领域的重要问题之一。缓解这个问题常用的方法主要是重采样和重加权。方法。文章中,研究人员通过层剥离模型对这两种方法的有效性给出了理论保证:文章从数学上严格证明了深度神经网络的对称性可以通过重采样和重加权技术得到完全修复,简单的等角紧最大化分类器之间的各自角度的框架结构和神经崩溃中不同类别之间的特征将重新出现,这解释了为什么这两种技术可以显着提高网络的泛化性能。图4用于修复网络最后一层对称性的重采样技术。可以看出,随着重采样率逐渐接近类间样本数的比例,数据集不平衡造成的对称性破坏逐渐被重采样修复,最终神经崩溃的几何结构完美再现。两个比率相等。ABCD的四张图分别是VGG和ResNet两种网络结构在Fashion-MNIST和CIFAR10这两个数据集上的结果。图5重采样与原始训练的泛化性能比较。可以看出,在各种条件下,重采样技术都显着提升了网络的泛化性能。在后续工作中,北京大学数学学院本科生季文龙在苏维杰教授的指导下完成了一篇文章[3],进一步从理论上分析了基于层剥离模型的神经崩溃现象.文章提出了一种无约束层空间剥离模型,去除了对特征和参数的约束,研究了更现实条件下参数在网络训练中的渐近行为。文章指出了神经崩溃的出现与神经网络隐式正则化之间的关系,并对网络损失函数的几何景观和梯度下降在这个非凸问题上的训练过程进行了严格的描述,更准确地说解释梯度下降如何收敛到神经崩溃的几何结构。作为一种通用且强大的分析方法,层间剥离模型为许多深度学习理论问题提出了一种新的模块化和剥离研究范式。进一步的研究方向包括如何利用多层剥离模型对神经网络进行更准确的描述?在这种情况下是否有更强的对称性后果?如何将神经网络的训练和泛化纳入层剥离模型的考虑?该模型如何为信息瓶颈、隐式正则化、局部弹性等当前流行的其他深度学习理论提供新的视角?我们相信在不久的将来,我们将能够从分层模型中看到更多令人兴奋的结果。参考文献[1]方丛,何航峰,龙启,苏伟杰.“通过分层模型探索深度神经网络:不平衡训练中的少数崩溃。”美国国家科学院院刊118,没有。43(2021).[2]VardanPapyan、X.Y.Han和DavidL.Donoho。“深度学习训练末期神经崩溃的普遍性。”美国国家科学院院刊117,没有。40(2020):24652-24663.[3]WenlongJi、YipingLu、YiliangZhang、ZhunDeng和WeijieJ.Su。“关于神经崩溃的无约束层剥离视角。”arXiv预印本arXiv:2110.02796(2021)。