当前位置: 首页 > 科技观察

回归元学习,基于变分特征聚合的少样本目标检测实现新的SOTA

时间:2023-03-15 15:22:10 科技观察

与传统的目标检测问题不同,少样本目标检测(FSOD)假设我们有很多基类样本,但只有一小部分新类样本的数量。其目标是研究如何将基础类的知识迁移到小说类,进而提高检测器识别小说类的能力。FSOD通常遵循两阶段训练范式。在第一阶段,检测器使用丰富的基类样本进行训练,以学习目标检测任务所需的一般表示,例如目标定位和分类。在第二阶段,检测器仅使用少量(如1、2、3...)新类样本进行微调。然而,由于基类和新类样本数量的不平衡,其学习的模型通常偏向于基类,进而导致新类目标与相似的基类混淆。此外,由于每个新类只有少量样本,该模型对新类的方差很敏感。例如,用新类的随机样本进行多次训练,每次的结果都会有很大的差异。因此,提高模型在少样本情况下的鲁棒性是非常必要的。近日,腾讯优图实验室联合武汉大学提出了基于变分特征聚合的少样本目标检测模型VFA。VFA的整体结构基于改进版的元学习目标检测框架MetaR-CNN++,提出了两种特征聚合方法:类别无关特征聚合CAA(Class-AgnosticAggregation)和变分特征聚合VFA(变分特征聚合)。特征聚合是FSOD中的一个关键设计,它定义了Query和Support样本之间的交互方式。以往的MetaR-CNN等方法通常采用类别相关的特征聚合CSA(class-specificaggregation),即将相似Query和Support样本的特征进行聚合。相比之下,本文提出的CAA允许在不同类别的样本之间进行特征聚合。由于CAA鼓励模型学习与类别无关的表示,因此它减少了模型对基类的偏见。此外,不同类之间的交互可以更好地建模类别之间的关系,从而减少类别的混淆。在CAA的基础上,本文还提出了VFA,它使用变分编码器(VAE)将支持样本编码到类的分布中,并从学习到的分布中采样新的支持特征进行特征融合。相关工作[1]指出类内方差(例如外观变化)在类间是相似的,并且可以通过公共分布建模。因此,我们可以利用基类的分布来估计新类的分布,从而提高特征聚合在样本少的情况下的鲁棒性。VFA在多个FSOD数据集上优于目前最好的模型,相关研究已被AAAI2023录用为Oral。论文地址:https://arxiv.org/abs/2301.13411VFA模型更详细的baseline方法:MetaR-CNN++当前FSOD的工作可以分为两类:基于元学习的方法和基于微调(fine-tuning)方法的方法。一些早期的工作表明元学习对FSOD有效,但最近基于微调的方法受到越来越多的关注。在本文中,我们首先建立了一种基于元学习的基线方法MetaR-CNN++,缩小了两种方法之间的差距,甚至在某些指标上超越了基于微调的方法。我们首先分析了两种方法在实现上的一些差距,以元学习方法MetaR-CNN[2]和基于微调的方法TFA[3]为例,尽管这两种方法都遵循两阶段训练范式,TFA在微调阶段使用额外的技术来优化模型:TFA冻结了大部分网络参数,只训练最终的分类和回归层,这样模型就不会过拟合到少样本类别。TFA不是随机初始化分类层,而是复制基类的预训练权重,只初始化新类的权重。TFA使用余弦分类器而不是线性分类器。考虑到TFA的成功,我们构建了MetaR-CNN++。如下表1所示,只要我们小心处理微调阶段,元学习方法也可以取得很好的效果。因此,本文选择MetaR-CNN++作为基线方法。表1:MetaR-CNN与TFA类别无关特征聚合CAA对比分析图1:类别无关特征聚合CAA示意图本文提出了一种简单有效的类别无关特征聚合方法CAA。如上图1所示,CAA允许不同类之间的特征聚合,这反过来又鼓励模型学习与类无关的表示,从而减少类间偏差和类间混淆。具体来说,对于一个类的每个RoI特征和一组Support特征,我们随机选择一类Support特征与Query特征进行聚合:然后我们将聚合后的特征提供给检测子网络以输出分类分数。VariationalFeatureAggregationVFAFig.2SchematicdiagramofVFAmodel以往的工作通常将Supportsamples编码成一个单一的特征向量来表示类别的中心。但是,在小样本和大方差的情况下,我们很难对类中心做出准确的估计。在本文中,我们首先将Support特征转换为类别分布。由于估计的类别分布不偏向特定样本,因此从分布中采样的特征对样本的方差具有鲁棒性。VFA的框架如上图2所示。a)变分特征学习。VFA使用变分自动编码器VAE[4]来学习类别的分布。如图2所示,对于一个Support特征S,我们首先使用encoder估计分布的参数和,然后通过变分推理从分布中采样,最后通过decoder得到重构的Support特征。在优化VAE时,除了常见的KLLoss和reconstructionLoss,本文还使用了consistencyLoss来让学习到的分布保留类别信息:b)Variationalfeaturefusion。由于支持特征被转换为类别分布,我们可以从分布中采样特征并与查询特征聚合。具体来说,VFA也采用类别无关的聚合CAA,但聚合了具有变分特征的Query特征。给定类查询特征和类支持特征,我们首先估计其分布,并对变分特征进行采样;然后通过以下公式将它们融合在一起:其中表示通道乘法,sig是sigmoid操作的缩写。在训练阶段,我们随机选择一个Support特征进行聚合;在测试阶段,我们平均一个类的支持特征并估计分布,其中分类-回归任务解耦通常,检测子网络由共享特征提取器和两个独立网络组成:分类子网络和回归子网络。在以前的工作中,聚合的特征被馈送到检测子网络中用于对象分类和边界框回归。但是分类任务需要平移不变特征,而回归需要平移协变特征。由于Support特征代表类别的中心并且具有平移不变性,因此聚合特征会损害回归任务。本文提出了一种简单的分类-回归任务解耦。让和表示原始的和聚合的查询特征,这些特征被以前的方法用于这两个任务,其中分类分数和预测的边界框定义为:为了分离这些任务,我们使用单独的特征提取器并使用边界框的原始支持特征回归:我们使用的实验评估数据集:PASCALVOC、MSCOCO。评价指标:小说类平均精度nAP,基础类平均精度bAP。主要结果VFA在两个数据集上都取得了很好的结果。例如,在PASCALVOC数据集(下表2)上,VFA明显高于之前的方法;VFA的1-shot结果甚至高于某些方法的10-shot结果。表2.VFA对PASCALVOC数据集的影响。消融实验a)不同模块的影响。如下表3所示,VFA的不同模块可以协同工作以提高模型的性能。表3不同模块的功能b)不同特征聚合方法的可视化分析。如下图3所示,CAA可以减少基础类和小说类之间的混淆;VFA在CAA的基础上进一步加强了类之间的区分。图3相似矩阵可视化c)更准确的类别中心点估计。如下图4所示,VFA可以更准确地估计类别的中心。并且随着样本量的减少,估计精度逐渐高于基线方法。这也解释了为什么我们的方法在更少的样本(K=1)下表现更好。图4估计类别中心与真实类别中心之间的距离d)结果的可视化。图5可视化结果结论本文回归了FSOD中基于元学习的特征聚合方法,提出了类别无关的特征聚合CAA和变分特征聚合VFA。CAA可以减少基类和新类之间的类别偏差和混淆;VFA将样本转换为类分布以实现更稳健的特征聚合。在PASCALVOC和MSCOCO数据集上的实验证明了本文提出的方法的有效性。