当前位置: 首页 > 科技观察

大连理工大学提出DeepBDC用于小样本识别,在6个benchmarks中表现最佳

时间:2023-03-15 08:14:52 科技观察

本文首次将基于概率统计的相似度度量布朗距离协方差引入深度学习,并提出了一个结束-to-end小样本识别方法DeepBDC。所提出的方法在6个标准数据库上实现了当前最先进的性能,包括一般对象识别、细粒度分类和跨域分类任务。该论文已被CVPR2022录用为OralPresentation。论文链接:https://arxiv.org/pdf/2204.04567.pdf代码链接:http://www.peihuali.org/DeepBDC第1章介绍当人类认识新事物时,他们通常只需要少量的学习数据就可以快速掌握相关知识,比如你可以通过几张图片认出一些你以前从未见过的动物。现代人工智能系统所依赖的深度学习算法往往需要大量的数据进行训练,训练成本非常高。同时,获取大量人工标注的数据也非常费时费力。因此,理想状态下的人工智能系统需要具备与人类相同的快速学习能力,也就是说,在每一类训练数据只有少量标记样本的情况下,深度学习模型具有优异的识别能力。样本分类任务。这个任务非常具有挑战性,因为很难从少量的样本中学习到丰富的知识,也很容易导致过拟合。当前可行的解决方案是基于元学习(或“学习学习”)来跨任务学习更深层次的知识并将其迁移到新任务中。在这种情况下,训练由一系列子任务组成,称为情节训练。在最新的研究中,基于度量的方法引起了很多关注。其核心是通过深度神经网络提取query和support图像的表示,并测量表示之间的距离来判断类别。在统计上,查询图像(或支持图像)的特征可以看作是高维空间中的随机向量X(或Y)。因此,图像之间的相似度可以通过概率分布来衡量。然而,对高维特征的分布进行建模是困难的,常用的方法是对统计矩进行建模。ProtoNet及其变体通过一阶矩(平均向量)表示图像,并使用欧氏距离或余弦相似度进行度量学习。为了获得更丰富的统计量,之前的一些工作研究了二阶矩(Covariancematrix)或一阶和二阶矩的组合(高斯分布),并采用了Frobenius范数或Kullback-Leiberler(KL)差异作为相似性度量。然而,这些方法只利用了边际分布(Marginaldistribution)而忽略了联合分布(Jointdistribution),没有充分利用分布之间的统计特性。此外,协方差的使用只能衡量两个分布之间的线性相关性,而深度神经网络的高维特征往往是非线性的,因此很难准确衡量。表1:DeepBDC与类似方法的比较一般来说,X和Y之间的相关性应该根据它们的联合分布来衡量。最佳运输理论中的打瞌睡距离(EMD距离)是衡量这种相关性的有效方法。如之前的一些工作所述,EMD寻求最优联合分布,其边际分布被限制为给定的总和,从而最小化预期的运输成本。在小样本分类中,DeepEMD提出可微EMD对图像区域进行最优匹配,从而更好地利用图像间的联合分布来衡量相似度。虽然DeepEMD取得了非常有竞争力的性能,但由于其计算需要求解线性规划方程,计算成本非常高,实际训练和测试会很耗时。此外,互信息(MutualInformation,MI)也是一种典型的度量方法,它可以通过联合分布与边际产品之间的KL-散度来量化两个随机变量的相关性。不幸的是,在高维空间中,MI的计算更加困难,通常涉及复杂的概率密度建模或KL-divergence的下界估计。在本文中,该研究提出了一种基于深度布朗距离协方差(DeepBDC)的方法,用于小样本分类任务。布朗距离协方差(BDC)最早由Gábor等人提出,定义为联合特征函数与边际积之间的欧氏距离。这是量化两个随机变量之间相关性的一种自然方式。在DeepBDC中,本研究将BDC实现为即插即用模块,可以灵活地连接到深度神经网络以获得BDC矩阵作为图像表示。两幅图像的相似度可以通过计算一对图像的BDC矩阵内积得到。同时,本研究实现的BDC模块也可以应用于基于简单迁移学习的框架,如Chen等人提出的baseline/baseline++。与经典协方差相比,布朗距离协方差可以描述非线性随机变量之间的相关性和独立性,因此可以更准确地衡量分布之间的相似性。与同样考虑联合分布的EMD相比,BDC计算效率高,几乎不影响网络的推理速度。同时,由于BDC不需要对概率密度进行建模,计算比MI简单。在上面的表1中,该研究展示了DeepBDC与其同行之间的差异。本文的贡献可以概括如下:本研究首次将布朗距离协方差(BDC)引入到基于深度网络的少样本分类中,表明BDC在深度学习中具有巨大的潜力和未来的应用价值。本研究将所提出的DeepBDC实现为即插即用模块,可应用于不同的小样本学习框架。同时,该研究结合两种不同范式的小样本学习框架实例化了DeepBDC,即基于原型网络框架的MetaDeepBDC和基于简单迁移学习框架的STLDeepBDC。本研究对所提出的方法进行了深入的消融研究,并对六个小样本分类基准进行了广泛的实验。实验结果表明,这两个实例都达到了最先进的分类性能。第二章深度布朗距离协方差2.1理论BDC理论最早由Gábor等人建立。它可以表示为联合特征函数的乘积与其在随机变量之间的边际分布之间的欧氏距离。分别为维度为和的随机向量,则X和Y之间的BDC测度可以表示如下:密度函数。以上是BDC的连续表达形式,在离散情况下,可以定义,其中是根据计算得到的欧式距离矩阵。类似地,我们可以获得欧氏距离矩阵,其中.那么在这种情况下,BDC测度可以写成:其中它表示矩阵迹,表示矩阵转置,称为BDC矩阵。这里,最后三项分别代表第一列、第一行和所有项目的平均值。可以用类似的方式计算矩阵。并且由于BDC矩阵是对称的,所以也可以写成两个BDC向量和的内积,即其中(or)是通过提取(or)的上三角部分得到的,再进行向量化。BDC测度有一个很好的属性,它是非负的,它等于当且仅当和是独立的。它可以表征和之间的线性和非线性依赖关系。它对的平移和正交变换不变,并且与它们各自的尺度变换等变。也就是说,对于任意向量、标量和正交矩阵,.2.2BDC模块由上一节可知,对于一对输入图像,可以独立计算BDC矩阵,然后进行内积运算,得到两者的相似度。因此,本研究将该过程作为一个单独的模块来实现,用于计算每个图像的高级卷积特征的BDC矩阵。并且由于BDC矩阵的大小是输入卷积特征维度的二次方,为了控制输出维度,本研究引入了一个1×1的卷积层进行降维。本研究首先通过reshaping得到降维卷积特征,其中和为空间的高和宽,以及通道数。每一列或每一行都可以看作是对一个随机向量的观察。下面举例介绍BDC模块的计算过程。如下式所示,计算分为三步。第一步计算平方欧氏距离矩阵,即第一列与第一列之间的平方欧氏距离;然后对其求平方根,得到欧式距离矩阵;最后用距离矩阵减去行均值、列均值和总体均值得到BDC矩阵。这里是一个矩阵,每个元素都是1,是单位矩阵,?表示Hadamard积。研究表明,2.3DeepBDC的两次实例化在实际的小样本分类训练中,研究者通常构建一系列分类任务,即普通类,每个类有一个样本。其中,这个样本构成了一个支持集,每一类都有一个图像,称为查询集。典型的小样本学习范式是以ProtoNet为代表的元学习。每次训练时提取一部分数据,形成支持集和查询集。学习使网络能够学习如何从各种任务中学习并将这种能力转移到全新的类别中。同时,另一种基于简单迁移学习的学习框架也取得了良好的泛化性能。它是训练阶段的一般图像分类任务。通过学习,网络可以获得更好的嵌入特征。在测试新品类时,能够快速适应。基于这两个学习框架,本研究构建了基于元学习的MetaDeepBDC和基于简单迁移学习的STLDeepBDC。如图1所示,MetaDeepBDC建立在ProtoNet架构的基础上。每个类的原型表达式是通过对从支持集图像中得到的BDC表达式进行平均得到的。通过计算查询图像的BDC表达式与每一类原型表达式之间的内积,得到与每个类别的距离,从而判断类别。在实验部分,该研究评估了几种获得原型表示的不同方法。图1:元DeepBDC。STLDeepBDC是基于典型的迁移学习框架Good-Embed,利用大量的标注数据进行训练,获得更好的基础模型,从而获得图像的嵌入特征。在新的类别空间中,通过线性层或回归器学习得到的嵌入特征,得到用于识别的分类器。如图2所示,本研究将BDC矩阵作为输入图像的嵌入特征送入末端的分类器进行学习,并使用交叉熵损失函数对网络进行优化。图2:STLDeepBDC。第三章实验3.1数据集和实验设置本文对一般识别任务miniImageNet和tieredImageNet,以及细粒度识别任务CUB、Cars、Aircraft进行了研究评估。在这些数据集上,为了与以前的工作进行公平比较,本研究使用标准数据集划分、数据扩充和训练策略。这些数据集中的每一个都分为三个子集:元训练、元验证和元测试,每个子集之间的类别不重叠。除了CUB使用224×224大小的图像作为输入外,其他实验均使用84×84分辨率的输入。主干模型使用先前工作中使用的ResNet-12(用于84×84输入图像)和ResNet-18(用于224×224输入图像)。其中,ResNet-12的residualblock由三个连续的3×3卷积层组成,通道数相同。每级网络的通道数为[64,160,320,640],残差块数为[1,1,1,1]。ResNet-18使用的是He等人在ResNet论文中的原始架构。同时,为了评估更深层模型的性能,该研究还使用了ResNet-34及其变体,分别应用于224×224和84×84输入的实验。ResNet-34的变体是在ResNet-12的基础上,将每一阶段的残差块数从[1,1,1,1]改为[2,3,4,2]。3.2与SOTA方法的比较本研究首先评估了DeepBDC在miniImageNet上的1-shot/5-shot性能。从表2可以看出,STLDeepBDC取得了最好的性能,MetaDeepBDC也表现出色,达到了超越或媲美当前最佳工作的性能。其中,在5-shot任务中,MetaDeepBDC和STLDeepBDC分别比之前最好的BML高出0.83%和1.82%。在细粒度识别任务CUB上,为了公平比较,研究首先根据设置重新实现了基线模型ProtoNet和Good-Embed。表2显示,本研究实现的ProtoNet和Good-Embed与原论文的准确率相比具有很强的竞争力,与目前最好的工作相比,本研究也明显领先。在1-shot上,MetaDeepBDC和STLDeepBDC分别优于FRN1%和1.46%;在5-shot上,这两个实现也分别领先FRN0.84%和1.04%。在跨域任务上,研究以miniImageNet为源域,以CUB、Cars、Aircraft三个细粒度数据集为目标域进行跨域评估。他们使用全套miniImageNet作为训练集,分别在目标域数据集上进行测试。结果如表3所示。在miniImageNet→CUB上,基于协方差的CovNet非常有竞争力,仅略低于目前最好的FRN。与FRN相比,MetaDeepBDC和STLDeepBDC分别比高性能FRN高0.8%和3.1%;在miniImageNet→Aircraft上,本研究的两个实现也较其他方法有显着提升,性能提升超过3.2%;在miniImageNet→Cars上,本研究的方法也处于领先地位,在1-shot和5-shot上分别比最好的ADM提高了0.7%和4.2%。这些结果充分证明本文方法具有良好的域迁移能力。表2:一般分类任务和细粒度识别任务的性能比较。黑色表示最佳性能,红色表示次佳性能。表3:域转移任务的性能比较。黑色表示最佳性能,红色表示次佳性能。3.3消融实验首先,本研究评估了降维层对DeepBDC和类似方法的性能影响。由上可知,降维层输出的特征通道数为d,研究评估d取不同值时的5-shot性能。如图3所示,可以看出随着维度的增加,ADM和CovNet分别在d=196和d=256时达到最高,之后性能会下降,接近于一阶ProtoNet。MetaDeepBDC也是如此,但只有当维度超过640时,才会出现性能下降。此外,我们还可以看到本研究的两种实现方式在所有维度上都可以明显高于同类方法,进一步证明了使用布朗距离协方差的优异性能。图3:降维层中通道数量d对性能的影响。然后分别对MetaDeepBDC和STLDeepBDC进行了评估。MetaDeepBDC中的一个关键实现是计算两个表达式之间的距离。该研究在相同的实验设置下评估了另外两种常用的度量,即欧氏距离和余弦距离。结果如表4所示,从中可以看出,各个距离函数的计算代价基本不相上下。在1-shot任务中,使用内积可以获得最好的性能;在5-shot任务中使用欧氏距离可以获得最佳性能。对于STLDeepBDC,该研究评估了使用不同分类器对性能的影响。可以看出,使用SVM的时间成本最小,但性能并不理想;使用逻辑回归可以获得最好的性能,而计算效率却不行。影响太大,尤其是和Softmax分类器相比,优势明显。基于这两个实验结论,本研究在所有实验中都使用了这样的设置。表4:MetaDeepBDC上的距离函数评估。表5:STLDeepBDC上的分类器评估。此外,该研究还比较了每种方法的运行时间。在同一计算设备上,在元训练和元测试期间,针对DeepBDC和类似方法测量了每个任务的运行时间(毫秒/情节)。结果如表6所示。可以看出,考虑联合分布的DeepEMD在同类方法中性能最好,但其训练和测试成本极高,远超其他所有方法。DeepBDC的训练和测试成本略高于CovNet和ProtoNet,但性能有显着优势。因此,这部分实验证明了DeepBDC是一种优秀且高效的方法,可以应用于实际应用中。表6:STLDeepBDC的分类器评估。同时,该研究还探索了DeepBDC在容量更大的模型上的性能。目前的小样本学习方法通??常使用ResNet-12或ResNet-18作为基础骨干模型,因此本研究使用更深的ResNet-34进行实验。他们分别在miniImageNet和CUB上与类似的方法进行了比较,结果如表7和表8所示。我们可以看到,本研究的两种实现在使用更大容量的模型时都具有持续的性能提升。表7:DeepBDC在基于ResNet-34的miniImageNet上的性能。表8:DeepBDC在基于ResNet-34的CUB上的性能。最后,该研究证明了对某些线性和非线性相关样本的布朗距离相关系数(BDCorr)和经典协方差相关系数(Corr)的相关性建模的能力。如图9所示,BDCorr在线性相关样本上与Corr具有相似的功效,并且由于其非负性,BDCorr不能反映方向性;两者都不能反映斜率的大小。但是,从图10可以看出,对于所有非线性相关样本,Corr都等于0,无法衡量非线性相关;而BDCorr可以描述这种复杂非线性情况下的相关性。这充分说明BDC在衡量分布间相关性方面比经典协方差更强大。表9:线性相关样本的比较。表10:非线性相关样本的比较。Chapter4Conclusion在本文中,研究提出了用于小样本分类任务的DeepBDC。DeepBDC通过衡量样本对之间的联合分布来获得更准确的相似度,大大提高了小样本分类的性能。据我们所知,这是第一次将布朗距离协方差这种具有巨大潜力但被严重低估的统计方法引入深度学习,并作为一种高效的即插即用模块实现,可以灵活地嵌入到深度学习中。在任意深度的卷积网络中。本研究中提出的两个实现,基于度量学习的MetaDeepBDC或基于简单迁移学习的STLDeepBDC,都证明了这种易用性。大量实验表明,本研究的方法在多个通用、细粒度、跨领域的小样本学习任务上取得了极具竞争力的性能,取得了目前最好的成绩。本研究提出的DeepBDC是一种测量距离/相似度和建模相关性的基础深度学习技术,在计算机视觉和机器学习中具有广阔的应用前景