深度学习推动了人工智能(AI)领域的不断发展,实现了多项技术突破。同时,如何在硬件资源有限的情况下,挖掘模型的潜力,提高部署模型的准确率,成为学术界和工业界的研究热点。其中,知识蒸馏作为一种模型压缩和增强的方法,将泛化能力更强的“大网络模型”所包含的知识“蒸馏”到“小网络模型”中,以提高小模型的准确率,是广泛应用于AI领域的全监督、半监督、自监督、域迁移等方向。近日,OPPO研究院和上海交通大学将视角聚焦到知识蒸馏范式本身,提出了一种新的自蒸馏框架:DLB(Self-DistillationfromLastMini-Batch)。鲁棒性强,大大节省了训练的空间复杂度。此外,该模型在三个基准数据的实验中实现了SOTA性能。相关论文《Self-DistillationfromtheLastMini-BatchforConsistencyRegularization》已被CVPR2022录用。论文链接:https://arxiv.org/pdf/2203.16172.pdfHowdoestheDLBself-distillationframeworkreducethecomputational蒸馏的复杂性?知识蒸馏一般可以分为三类,即离线蒸馏、在线蒸馏和自蒸馏。其中,自蒸馏具有训练轻、知识迁移效率高的特点,最近受到研究者的更多关注。图1:我们的方法与其他自蒸馏方法的比较但是传统的自蒸馏,例如BeYourOwnTeacher,需要在模型训练期间修改模型结构。此外,训练成本高、计算冗余、效率低也是自蒸馏需要克服的问题。为了解决上述问题,让模型更好的部署到手机等终端设备上,OPPO研究院和上海交通大学的研究人员提出了DLB自蒸馏框架。利用训练前后Batch预测结果的一致性,可以在不修改模型网络结构的情况下,降低训练复杂度,增强模型的泛化能力。1.本文任务提出了一种更轻量级的自蒸馏方法,以降低训练的计算复杂度,提高模型精度和泛化能力。2、本文的创新点和贡献提出了DLB,通过保存与下一批次的部分样本重叠的softtargets来进行自蒸馏。节省计算内存,简化训练过程。让训练样本的每一个前向过程都关联一个反向传播过程,从而提高学习效率。实验分析了DLB训练方法的动态影响,发现其正则化效果来自于立即生效的平滑标签带来的训练一致性,为自蒸馏的理论研究提供了实验依据。DLB自蒸馏框架训练机制DLB在训练阶段的每一次迭代中,目标网络都扮演着“老师”和“学生”的双重角色。其中,教师的作用是生成下一次迭代的软目标进行正则化;学生的角色是从前一次迭代的平滑标签中提取并最小化监督学习目标。数据集定义为,包含n个样本的Batch定义为:以图像分类为例,首先对图像进行数据增强,然后输入神经网络优化预测输出和预测输出之间的交叉熵损失真值:上式中的p_i的表达式如下:θ为网络参数,K为类别数,τ为温度。为了提高泛化能力,传统的vanillaknowledgedistillation通过额外优化的KLdivergenceloss传递预训练教师网络的知识,即:不同于以往使用预训练教师模型生成(P_i^τ)?,DLB在训练中使用前batch中包含的信息生成(P_i^τ)?,并将其作为正则化的即时平滑标签。图2:DLB训练方法示意图如图2所示,第t次迭代的数据样本定义为,神经网络的参数为θ_t。B_t和B_(t-1)是通过数据采样器在forwardpass后计算L_CE得到的。每个mini-batch限定一半与上一次迭代一致,剩下的一半与下一次迭代一致。之后,小批量的前半部分使用上一次迭代中生成的动态软目标进行学习。也就是说,它是由t-1次迭代的软标签生成的。因此,引入的正则化损失公式如下:存储平滑标签需要很少的额外内存开销,因此额外的计算开销很小。整体损失函数由以下公式表示:综上所述,DLB算法整体训练的伪代码如下:实验设置研究人员使用了三个图像分类基准数据集来评估性能,包括CIFAR-10、CIFAR-100TinyImageNet。实验结果取得了最好的性能,如下表所示:具体来说,在平均错误率方面,DLB在CIAFR-100上从0.83%提高到2.50%,在CIFAR-10上从0.37%提高到1.01%,在TinyImageNet上从0.81%到3.17。值得一提的是,DLB的性能明显优于Tf-KD和PS-KD,证明了DLB在提升模型泛化能力方面的优势。为了评估DLB与基于数据增强的正则化方法的兼容性,研究人员在CIFAR-10和CIFAR-100上将DLB与CutMix、CutOut和DDGSD相结合。如下所示,实验表明,通过结合DLB和基于增强的正则化可以实现额外的性能提升。为了证明鲁棒性,研究人员在训练前将标签噪声随机注入CIFAR-100和CIFAR-10。实验结果如下图所示。DLB可以有效抵抗标签噪声,提高整体性能。结论本文提出了一种基于自蒸馏思想的深度学习训练策略,将自蒸馏思想融入模型训练过程,改进了传统的知识蒸馏,不需要额外的预训练老师的过程。通过在三个基准数据集上的实验,多维度证明了DLB训练策略的有效性和普适性。目前,深度学习网络模型的结构复杂度不断增加,利用有限的硬件资源开发和部署AI模型成为新的科研课题。在本文中,研究人员设计的DLB训练策略在一定程度上解决了“在不增加模型复杂度的情况下提高模型精度”的行业难题。
