当前位置: 首页 > 科技观察

模型难复现不一定是作者的错,研究发现模型架构要背锅

时间:2023-03-18 22:17:54 科技观察

模型难以复现不一定是作者的错。研究发现模型架构是罪魁祸首。同一个神经网络能否在不同的初始化条件下训练两次得到相同的结果?CVPR2022的一项研究通过可视化决策边界(DecisionBoundary)给出了答案——有的容易,有的难。例如,从下图来看,研究人员发现ViT比ResNet更难复现(经过两次训练,很明显ViT的决策边界差异更大):研究人员还发现复现性模型的宽度也与模型本身的宽度有很大关系。同样,他们用这种方法对2019年机器学习最重要的理论之一——双重下降现象进行了可视化,最终发现了一些有趣的现象。让我们看看他们是怎么做到的。更广泛的CNN模型,深度学习中更可重复的决策边界,可用于最小化错误。简单的说,分类器会通过决策边界将线内外的点分类到不同的类中。在这项研究中,作者从CIFAR-10训练集中选择了三张随机图像,然后使用三种不同的随机初始化配置在七种不同的架构上进行训练,以映射它们各自的决策区域。由此我们可以发现,左边的三个和右边的四个差别很大,也就是说不同架构之间的相似度很低。进一步看,左边的全连接网络、ViT和MLPMixer的决??策边界图并不相同,而右边的CNN模型非常相似。在CNN模型中,我们还可以观察到不同随机数种子之间存在明显的重复性趋势,这表明具有不同初始化配置的模型可以产生相同的结果。作者设计了一个更直观的指标来衡量每个架构的可重复性得分,结果也确实验证了我们的直觉:并且发现更宽的CNN模型似乎在其决策区域具有更高的可重复性,例如WideRN30。并且带有残差连接结构的CNN模型(ResNet和DenseNet)的再现性得分略高于没有这种连接的模型(VGG)。此外,优化器的选择也有影响。在下表中,我们可以看到SAM比SGD和Adam等标准优化器产生更多可重复的决策边界。然而,对于MLPMixer和ViT,使用SAM并不能始终保证模型的最高测试精度。有网友表示好奇,能否通过改进模型本身的设计来改变这种现象?作者回应说他们已经尝试调整了ViT的学习率,但是结果还是比ResNet差。可视化ResNet-18的DoubleDescentDoubleDescent是一个有趣的概念,它描述了测试/训练误差和模型大小之间的关系。在此之前,普遍认为参数太少的模型泛化能力差——欠拟合;参数太多的模型泛化能力差——由于过度拟合。而且也证明了两人的关系并没有那么简单。具体来说:误差会先随着模型的增大而减小,然后模型过拟合后,误差会再次增大,但随着模型大小或训练时间的进一步增加,误差会再次减小。作者继续使用决策边界的方法来可视化ResNet-18的doubledrop现象。他们通过改变宽度参数(k:1-64)来增加模型容量。训练了两组模型,一组使用没有噪声标签(标签噪声)的训练集,另一组使用20%噪声标签的训练集。最后,在第二组模型中观察到明显的双底现象。对此,作者表示:线性模型预测的模型不稳定性同样适用于神经网络,但这种不稳定性表现为决策区域存在大量碎片。也就是说,双下降现象是在有噪声标签的情况下决策区域过度碎片化造成的。具体来说,当k接近/达到10(即插值阈值)时,由于此时模型拟合了大部分训练数据,决策区域被分割成许多小块,变得“乱七八糟”,这不具有重复性;此时模型的分类函数存在明显的不稳定性。虽然模型宽度非常窄(k=4)和非常宽(k=64),但决策区域的碎片化程度较低且具有较高的可重复性。为了进一步证明结果,作者设计了一种碎片化分数计算方法,最终再次验证了上图中的观察结果。模型的复现性得分如下:也可以看出整个训练过程的复现性在欠参数化和过参数化的情况下都很高,但是在插值阈值处出现了“崩盘”。有趣的是,即使没有嘈杂的标签,研究人员发现他们设计的量化方法足够灵敏,可以检测到可重复性的微小下降(上图蓝线)。目前代码已经开源。你想试试你的模型是否容易复现?论文地址:https://arxiv.org/abs/2203.08124GitHub链接:https://github.com/somepago/dbVi