Stanford,MetaAIResearch:在通往AGI的道路上,数据剪枝比我们想象的数据、模型大小或计算量更重要。这种成比例的改进推动了深度学习取得了可观的性能提升。然而,这些仅缩放的改进在计算和能量方面付出了相当大的代价。这种比例缩放是不可持续的。例如,将错误率从3%提高到2%所需的数据、计算或能量呈指数级增长。之前的一些研究表明,在使用大型Transformer进行语言建模时,交叉熵损失从3.4下降到2.8需要10倍的训练数据。此外,对于大型视觉Transformer,额外的20亿个预训练数据点(从10亿个开始)导致ImageNet上的准确性仅提高了几个百分点。所有这些结果都阐明了深度学习中数据的性质,同时表明收集庞大数据集的做法可能效率低下。这里讨论的是我们是否可以做得更好。例如,我们是否可以通过选择训练样本的良好策略来实现指数缩放?在最近的一篇论文中,研究人员发现,只添加少量精心挑选的训练样本就可以将误差从3%降低到2%,而无需收集10倍以上的随机样本。简而言之,“销售不是你所需要的”。论文链接:https://arxiv.org/pdf/2206.14486.pdf总的来说,本研究的贡献在于:1.利用统计力学,发展了一种新的数据剪枝分析理论,并在师生感知器中在学习设置中,样本根据它们的教师边距进行修剪,大(小)边距对应于容易(困难)的样本。该理论在数量上与数值实验一致,并揭示了两个惊人的预测:最优剪枝策略随初始数据量的变化而变化;如果初始数据丰富(稀缺),则只有硬(简单)样本。b.如果选择增加的Pareto最优修剪分数作为初始数据集大小的函数,则修剪后的数据集大小可以进行指数缩放。2.研究表明,这两种预测在更一般的环境中都适用。他们针对在SVHN、CIFAR-10和ImageNet上从头开始训练的ResNet以及在CIFAR-10上微调的VisionTransformer,针对修剪后的数据集大小验证了误差指数缩放功能。3.在ImageNet上对10种不同的数据剪枝指标进行大规模基准测试研究,发现除了计算量最大的指标外,大多数指标表现不佳。4.我们使用自我监督学习开发了一种新的低成本无监督修剪指标,与以前的指标不同,它不需要标签。我们证明这种无监督指标可与最佳监督修剪指标相媲美,后者需要标签和更多计算。这一结果揭示了使用预训练基础模型修剪新数据集的可能性。规模是你所需要的吗?研究人员的感知器数据剪枝理论做出了三个令人惊讶的预测,这些预测可以在更一般的设置中进行测试,例如在基准上训练的深度神经网络:(1)与随机数据剪枝相比,当初始数据集比较大时,它只保留最困难的样本是有益的,但是当初始数据集比较小时,这是有害的;(2)随着初始数据集大小的增加,通过保留固定分数f的最困难样本,数据剪枝应该产生指数等于随机剪枝的幂律缩放;(3)针对初始数据集大小和保留数据部分优化的测试误差,可以通过对较大的初始数据集分支进行更积极的修剪来改善,跟踪帕累托最优下包络线,并打破测试误差之间的幂律缩放函数关系以及修剪后的数据集的大小。研究人员使用在SVHN、CIFAR-10和ImageNet上训练的ResNets验证了上述内容,这些ResNets具有不同数量的初始数据集大小和在数据修剪下保留的数据部分(图3A中的理论与图3BCD中的深度学习实验)。三个预测。在每个实验设置中,可以看出更大的初始数据集大小和更积极的修剪比幂律缩放表现更好。此外,较大的初始数据集可能会看到更好的缩放(图3A)。此外,研究人员发现数据剪枝可以提高迁移学习的性能。他们首先分析了在ImageNet21K上预训练的ViT,然后在CIFAR-10的不同修剪子集上进行了微调。有趣的是,预训练模型允许更积极的数据修剪;CIFAR-10上只有10%的微调达到或超过了CIFAR-10上所有微调所达到的性能(图4A)。此外,图4A提供了在微调设置中打破幂律缩放的示例。通过在ImageNet1K的不同修剪子集上对ResNet50进行预训练(如图3D所示),我们检查了修剪预训练数据然后在CIFAR-10上对其进行微调的效果。如图4B所示,对至少50%的ImageNet进行预训练能够达到或超过对所有ImageNet进行预训练所达到的CIFAR-10性能。因此,剪枝上游任务的预训练数据仍然可以在不同的下游任务上保持高性能。总的来说,这些结果显示了在预训练和微调阶段修剪迁移学习的前景。在ImageNet上对监督剪枝指标进行基准测试研究人员注意到,大多数数据剪枝实验都是在小规模数据集(即MNIST和CIFAR的变体)上进行的。因此,很少将针对ImageNet提出的少数修剪指标与在较小数据集上设计的基线进行比较。因此,目前还不清楚大多数修剪方法如何扩展到ImageNet以及哪些方法效果最好。为了研究剪枝指标质量对性能的理论影响,研究人员决定通过在ImageNet上系统地评估8种不同的监督剪枝指标来填补这一知识空白。他们观察到指标之间存在显着的性能差异:图5BC显示了当每个指标下的一小部分最难样本保留在训练集中时的测试性能。Onsmallerdatasets,manymetricsaresuccessful,butwhenchoosingasignificantlysmallertrainingsubset(like80%ofImagenet),onlyafewmetricsstillachievecomparableperformanceonfulldatasettraining.尽管如此,大多数指标仍然优于随机修剪(图5C)。研究人员发现,所有修剪指标都会放大类不平衡,导致性能下降。为了解决这个问题,作者在所有ImageNet实验中使用了简单的50%类平衡率。通过原型指标进行自监督数据修剪图5.许多数据修剪指标不能很好地扩展到ImageNet,其中一些指标确实是计算密集型的。此外,所有这些指标都需要标签,这限制了它们在大型未标记数据集上训练大规模基础模型的数据修剪能力。因此,我们显然需要简单、可扩展、自我监督的修剪指标。为了评估指标发现的聚类是否与ImageNet类一致,我们在图6A中比较了它们的重叠。当保留超过70%的数据时,自监督和监督指标的性能相似,显示出自监督剪枝的前景。有关研究的更多详细信息,请参阅原始论文。
