当前位置: 首页 > 科技观察

南京理工大学&牛津大学使用一行代码大幅提升零样本学习方法的效果,提出了即插即用的分类器模块

时间:2023-03-21 00:29:10 科技观察

零样本学习(Zero-ShotLearning),重点在分类训练过程中没有出现的类别上,基于语义描述的零样本学习,通过预先定义每个类别的高阶语义信息,实现从已见类到未见类的知识迁移。传统的零样本学习只需要在测试阶段识别不可见类,而广义零样本学习(GZSL)需要同时识别可见类和不可见类,其评价指标是已见类的平均准确率和看不见的类别的平均准确度。精度的调和平均值。一种通用的零样本学习策略是使用可见类样本和语义从语义空间到视觉样本空间训练条件生成模型,然后借助不可见类语义生成不可见类的伪样本,最后使用可见类样本unseenClassification网络是在伪类样本上训练的。然而,学习两种模态(语义和视觉)之间的良好映射通常需要大量样本(参见CLIP),这在传统的零样本学习环境中是无法实现的。因此,使用unseenclass语义生成的视觉样本的分布通常与真实样本的分布存在偏差,这意味着以下两点:1.该方法获得的unseenclasses的准确性有限。2.当unseenclass中每类平均生成的伪样本数与visible类中每类平均样本数相等时,unseenclass的准确率与可见类,如下表1所示。我们发现即使只学习从语义到类别中心点的映射,将映射到未见类语义的单个样本点多次复制然后参与分类器训练,仍然可以得到接近使用生成模型的效果.这意味着生成模型生成的未见类伪样本特征对于分类器来说是相对同质的。以前的方法通常通过生成大量不可见类的伪样本来迎合GZSL评估指标(尽管大样本量无助于不可见类的类间区分)。然而,这种重采样策略在长尾学习领域已经被证明会导致分类器在某些特征上过拟合,这是与真实样本的伪看不见的偏差。阶级特征。这种情况不利于识别seen类和unseen类的真实样本。那么,我们是否可以放弃这种重采样策略,转而使用unseenclass的伪样本的偏移量和同质性(或者visibleclass和unseenclass之间的类别不平衡)作为inductivebias?分类器学习呢?基于此,我们提出了一种即插即用的分类器模块,只需修改一行代码即可提高生成式零样本学习方法的性能。它只需要为每个看不见的类生成10个伪样本即可达到SOTA级别。与其他生成零样本方法相比,新方法在计算复杂度方面具有巨大优势。研究成员来自南京理工大学和牛津大学。论文:https://arxiv.org/abs/2204.11822代码:https://github.com/cdb342/IJCAI-2022-ZLA本文以一致的训练和测试目标为导向,推导出广义零样本学习评价指标Variational下限。这样建模的分类器可以避免使用重采策略,防止分类器对生成的假样本过拟合而影响真实样本的识别。所提出的方法可以使基于嵌入的分类器在生成方法的框架中有效,减少分类器对生成的伪样本质量的依赖。方法1.引入参数化先验我们决定从分类器的损失函数开始。假设类别空间已经被生成的未见过的伪样本完善,对前面的分类器进行优化,使全局准确率最大化:其中全局准确率,代表分类器的输出,代表样本分布,为样本X对应的标签。GZSL的评价指标为:其中和分别表示已见类和未见类的集合。训练目标和测试目标之间的不一致意味着以前的分类器训练策略没有考虑可见类和不可见类之间的差异。自然地,我们尝试通过推导来实现相同的训练和测试目标。经过推导,我们得到了它的下界:代表seenclass-unseenclassprior,与数据无关,在实验中作为超参数调整,代表seenclass或unseenclass的内部先验,在实现过程中使用可见类的样本频率或均匀分布代替。通过最大化下界,我们得到最终的优化目标:由此,我们的分类建模目标与之前相比发生了以下变化:通过使用交叉熵拟合后验概率,我们得到分类器损失为:这与Logit类似长尾学习中的调整,所以我们称之为零样本Logit调整(ZLA)。至此,我们通过引入参数化先验,实现了将visibleclass和unseenclass之间的classimbalance作为inductivebias植入到分类器训练中,只需要在代码中对原有的logits增加一个额外的biasitem实现可以达到上面的效果。2.引入语义先验到目前为止,零样本迁移的核心,即语义先验(semanticprior)只在训练生成器和生成伪样本阶段发挥作用,对未见类的识别完全依赖于生成的unseen伪类样本的质量。显然,如果能在分类器训练阶段引入语义先验,将有助于对未见过类的识别。在零样本学习领域,有一类基于嵌入的方法可以实现这个功能。但是这类方法类似于生成模型学到的知识,即语义-视觉链接(semantic-visuallink),这就导致直接引入了之前的生成框架(参考论文f-CLSWGAN)基于嵌入式分类器的性能不可能比原来的好(除非分类器本身有更好的零样本性能)。通过本文提出的ZLA策略,我们能够改变生成的不可见类伪样本在分类器训练中的作用。从最初提供不可见类信息到现在调整不可见类和可见类之间的决策边界(决策边界),我们可以在分类器训练阶段引入语义先验。具体来说,我们采用原型学习的方法将每个类别的语义映射到视觉原型(即分类器权重),然后将调整后的后验概率(adjustedposterior)建模为样本与视觉原型之间的余弦相似度(cosinesimilarity),这是温度系数。在测试阶段,预测样本对应于与视觉原型具有最大余弦相似度的类别。实验我们将提出的分类器与基础WGAN相结合,并在每个未见类别生成10个样本时实现与SoTA相当的性能。此外,我们将其插入到更先进的CE-GZSL方法中,在不改变其他参数(包括生成的样本数量)的情况下提高了初始性能。在消融实验中,我们将基于生成的原型学习器与纯原型学习器进行了比较。我们发现最后一个ReLU层对于纯原型学习器的成功至关重要,因为将负数置零会增加类原型与未见类特征(也被ReLU激活)的相似性。但是,将一些值设置为零也限制了原型的表达,不利于进一步的识别性能。使用pseudo-unseenclasssamples来补偿unseenclass信息,不仅可以在使用RuLU时获得更高的性能,而且可以在没有ReLU层的情况下实现进一步的性能超越。在另一项消融研究中,我们将原型学习器与初始分类器进行比较。结果表明,原型学习器在生成大量未见类样本时与初始分类器相比没有优势。在使用本文提出的ZLA技术时,原型学习器显示出其优越性。如上所述,这是因为原型学习器和生成模型都在学习语义-视觉连接,所以语义信息很难被充分利用。ZLA使生成的unseenclass样本能够调整决策边界,而不仅仅是提供unseenclass信息,从而充当原型学习者的激活。