NeurIPS2022|开域检测新方法DetCLIP,推理效率提升20倍解决场景任意类别检测问题。开放域检测方法在业界的应用主要包括自动驾驶系统中的道路物体检测,以及云端的全场景检测。论文地址:https://arxiv.org/abs/2209.09407本文分享NeurIPS2022入选论文《DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection》,针对开放域检测问题提出了一种高效的多数据源联合并行训练框架。构建了一个额外的知识库以提供类别之间的隐式关系。同时,在微软举办的ECCV2022OdinW(ObjectDetectionintheWild[1])竞赛中,DetCLIP以平均检测指数24.9%获得零样本检测赛道第一名。问题介绍随着基于网络爬虫的图像-文本训练的多模态预训练模型(如CLIP)的流行,以及其在零样本分类领域的优异表现,越来越多的方法尝试将此结合起来能力转移到开放域密集预测(例如,任意类检测、分割等)。现有方法往往使用预训练的大分类模型进行特征级蒸馏[1]或通过在标题中添加伪标签和自训练来学习[2],但这往往受到大分类模型性能的限制和问题不完整的标题标签。现有的SOTA开放域检测模型GLIP[3]将检测数据格式转换为Grounding数据格式进行多数据源联合训练,充分利用不同数据源的优势(检测数据集标注比较完整对于常见类别,而Grounding数据集具有更大范围的类别覆盖间隔)。然而,我们发现连接类别名词的方法导致模型整体学习效率下降,并且直接使用类别词作为文本输入无法提供类别之间细粒度的先验关系。图1:多数据源联合预训练开放域检测模型流水线模型框架如下图所示,基于ATSS[4]单阶段检测模型构建,DetCLIP包含图像编码器获取图像特征的检测框架,和一个文本编码器,以获得类别的文本特征。然后根据上述图像特征和文本特征计算出对应的分类对齐损失、中心点损失和回归损失。图2:DetCLIP模型的框架如图2右上和左上所示。本文的主要创新点是1)提出了一个处理多数据源object-text联合训练的框架,并行输入到优化训练效率;2)构建一个附加的对象知识库辅助开放域检测训练。与GLIP相比,多数据源并行输入预训练框架通过拼接类别名词,将检测数据转化为grounding形式(serial)。我们将grounding数据中对应的名词短语和detection中的类别提取为独立的Input,输入到textencoder(并行),避免不必要的attention计算,达到更高的训练效率。图3:DetCLIP并行输入预训练框架和GLIP对比对象知识库为了解决不同数据源的类别空间不一致的问题(同一个类别名称不同,或者类别包含等)而提供针对类别间关系的先验信息,我们构建了一个对象知识库,以便更高效的训练。构建:我们同时综合检测数据中的类别、图像-文本对中的名词短语以及相应的定义来构建对象知识库。用途:1.我们利用对象知识库的定义,对现有检测数据中的类别词进行扩充,提供类别间关系的先验信息(ConceptEnrichment)。图4:使用对象知识库扩展类词定义的示例2。由于groundingdata和image-caption中数据captionlabeling不全的问题(出现在图片上的类别没有出现在caption中),这些图片的训练有时可以作为负样本的类别数是非常小,这使得模型对一些不常见的类别的区分度较低。因此,我们从对象知识库中随机选择对象名称作为负样本类别,以提高模型对稀有类别特征(+负样本)的辨别能力。图5:引入对象知识库中的类别作为负样本类别3。对于无框标注的图文对数据,我们使用华为诺亚自研的大模型FILIP[5]和预训练的RPN进行标注,以便将其转化为正常的接地数据进行训练。同时,为了缓解caption中没有完全标注图片上物体的问题,我们将物体知识库中的所有类别词组作为候选类别进行伪标注(第二行),与仅使用标题中的类别标注(第一行)的效果对比如下:图6:引入对象知识库中的类别作为虚假标注的候选类别。基于swin-tbackbone架构,DetCLIP相比现有的SOTA模型GLIP实现了9.9%的AP提升,在Rare类别中实现了12.4%的AP提升,虽然我们只使用了不到GLIP一半的数据,请注意训练集中没有包含LVIS中的图像。表1:LVIS上不同方法的Zero-shottransfer性能比较在训练效率方面,基于相同的32V100硬件条件,GLIP-T的训练时间是DetCLIP-T的5倍(10.7KGPUhrs与2.0KGPU小时相比)。在测试效率方面,基于单台V100,DetCLIP-T2.3FPS(0.4秒每张图像)的推理效率是GLIP-T0.12FPS(8.6秒每张图像)的20倍。我们还独立研究了DetCLIP(并行框架和对象知识库)的关键创新对准确性的影响。表3:DetCLIP的消融研究结果在LVIS数据集上的可视化结果如下图所示。基于同样的swin-tbackbone,在LVIS数据集上的可视化效果相比GLIP有了明显的提升,尤其是稀有类别的标注,以及标注的完整程度。图7:DetCLIP和GLIP预测结果在LVIS数据集上的视觉对比
