当前位置: 首页 > 科技观察

数据缩至1-5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

时间:2023-03-16 20:50:25 科技观察

数据减少到1/5000,但模型的准确率提高了一倍。谷歌新的“蒸馏法”很受欢迎。在炼金术的过程中,为了减少训练所需的资源,MLer有时会将大而复杂的模型“提炼”成更小的模型,同时确保结果与压缩前相当。这就是知识蒸馏,一种模型压缩/训练的方法。但是随着技术的发展,大家逐渐将蒸馏的对象扩展到了数据集上。这不,谷歌最近提出了两种新的数据集蒸馏方法,在推特上引起了不小的反响,热度超过了600:像这样,将50000张标注图像的CIFAR-10数据集“蒸馏”为1/5000size,仅仅基于10个合成数据点进行训练,模型的准确率仍然可以达到51%左右:1%的数据集),准确率可达80%。两种数据集蒸馏方法分别来自ICLR2021和NeurIPS2021上的两篇论文。通过两阶段循环进行优化那么如何“提取”数据集呢?其实这相当于一个两阶段的优化过程:“内循环”,用来在学习数据上训练模型“外循环”,用来优化学习数据在自然数据上的表现,核岭回归可以通过内循环(KRR)函数得到,然后在外循环计算原始图像标注与核岭回归函数预测标注的均方误差(MSE)。这时,谷歌提出的两种方法有着不同的处理路线:1.LabelInterpretation(LS)这种方法直接解释最小化KRR损失函数的支持标签,并为每张支持图像生成一个唯一的密集标签向量。△Blue:Originalone-hotannotationOrange:DenseannotationgeneratedbyLS2.KernelInductionPoint(KIP)该方法通过基于梯度的方法最小化KRR损失函数来优化图像和可能生成的数据。以MNIST为例,下图中上、中、下图分别是原始MNIST数据集、固定标签KIP蒸馏图和优化标签KIP蒸馏图。可以看出,当对数据集进行蒸馏时,优化标注的效果是最好的:对比现有的DC(DatasetCondensation)方法和DSP(DatasetCondensationwithDifferentiableSiameseAugmentation)方法,可以看出,如果只有一种图像,即最后只有10张图像的蒸馏数据集,KIP方法的测试集准确率普遍高于DC和DSP方法。在CIFAR-10分类任务中,LS也优于之前的方法,KIP甚至可以达到两倍的效果。对此,谷歌表示:这证明在某些情况下,我们的100倍“蒸馏数据集”优于原始数据集。两位中国作者整个项目由肖乐超、陈周荣和罗曼·诺瓦克共同完成。其中,肖乐超是LS方法论文的作者之一。毕业于浙江大学应用数学系,获学士学位,获伊利诺伊大学香槟分校(UIUC)博士学位。他现在是谷歌大脑团队的一名科学家。他的主要研究兴趣是数学、机器学习和深度学习。另一位中国科学家陈周荣是KIP方法论文的作者之一。毕业于中山大学,获学士学位,获香港科技大学计算机科学与工程系博士学位。他现在是谷歌研究院的一名软件工程师。论文:[1]https://openreview.net/forum?id=l-PrrQrK0QR[2]https://openreview.net/forum?id=hXWPpJedrVP开源地址:https://github.com/google-研究/google-research/tree/master/kip