简介研究作者提出了MatrixNet(xNet),一种新的对象检测深度架构。xNets将具有不同大小和纵横比的对象映射到网络层中,其中对象在层内的大小和纵横比几乎是统一的。因此,xNets提供了一种大小和长宽比感知结构。研究人员利用xNets来增强基于关键点的对象检测。新架构实现了比任何其他单次检测器更高的时间效率,在MSCOCO数据集上具有47.8mAP,同时使用一半的参数,与第二好的框架相比,训练时间快了3倍。简单的结果表明xNet的参数和效率远超其他模型如上图所示。其中,FSAF是anchor-based检测器中最好的,超过了经典的RetinaNet。研究人员提出的模型优于所有其他参数数量相似的单次架构。背景和当前状态对象检测是计算机视觉中研究最广泛的任务之一,在对象跟踪、实例分割和图像字幕等其他视觉任务中有许多应用。目标检测结构可以分为两类:单发检测器和两级检测器。两阶段检测器利用区域建议网络找到固定数量的目标候选对象,然后使用第二个网络预测每个候选对象的分数并细化其边界框。常见的Two-stagealgorithmSingle-shotdetector也可以分为两类:anchor-baseddetectors和keypoint-baseddetectors。基于锚点的检测器包含许多锚点边界框,然后预测每个模板的偏移量和类别。最著名的基于anchor的架构是RetinaNet,它提出了一个focalloss函数来帮助纠正anchor边界框的类不平衡。性能最好的基于锚点的检测器是FSAF。FSAF将anchorbase输出与anchor-free输出header集成在一起,以进一步提高性能。另一方面,基于关键点的检测器可以预测左上角和右下角的热图,并使用特征嵌入来匹配它们。最初的基于关键点的检测器是CornerNet,它利用特殊的Coener池化层来准确检测不同大小的物体。从那时起,Centerne通过预测对象中心和角点极大地改进了CornerNet架构。MatrixNets下图是Matrixnets(xNets),它使用分层矩阵对不同大小和簇比例的对象进行建模,其中矩阵中的每个条目i,j代表一个层li,j,左上角的矩阵l1,1的宽度被降采样2^(i-1),高度被降采样2^(j-1)。对角线层是不同大小的正方形层,相当于一个FPN,而非对角线层是矩形层(xNets特有)。l1,1层是最大的一层,向右每走一步层的宽度减半,每走一步高度减半。例如,层l3,4的宽度是层l3,3的一半。对角线层对纵横比接近正方形的对象建模,而非对角线层对纵横比不是正方形的对象建模。具有极高或极低纵横比的矩阵模型对象右上角或左下角附近的图层。此类对象非常罕见,因此可以对其进行修剪以提高效率。1.层生成生成矩阵层是关键的一步,因为它会影响模型参数的数量。参数越多,模型表达越强,优化问题越难,因此研究人员选择引入尽可能少的新参数。可以从主干的不同阶段获得对角线层,或者可以使用特征金字塔框架。上三角层是通过在对角层上应用一系列步幅为1x2的共享3x3卷积得到的。类似地,左下层是使用步幅为2x1的共享3x3卷积获得的。参数在所有下采样卷积之间共享,以最小化新参数的数量。2.层范围矩阵中的每一层都对具有一定宽度和高度的对象进行建模,因此我们需要定义分配给矩阵中每一层的对象的宽度和高度范围。范围需要反映矩阵层特征向量的感受野。矩阵右侧的每一步都有效地使水平维度的感受野加倍,每一步都使垂直维度的感受野加倍。所以当我们在矩阵中向右或向下移动时,宽度或高度的范围需要加倍。一旦定义了第一层l1,1的范围,我们就可以使用上述规则为矩阵层的其余部分生成范围。3.MatrixNets的优点MatrixNets的主要优点是它们允许方形卷积核准确地收集关于不同纵横比的信息。在传统的目标检测模型中,如RetinaNet,需要一个正方形卷积核来输出不同的长宽比和尺度。这是违反直觉的,因为不同方面的边界框需要不同的背景。在MatrixNets中,由于每个矩阵层的context是变化的,所以相同的方形卷积核可以用于不同尺度和纵横比的boundingboxes。由于对象大小在其分配的层内几乎是均匀的,因此与FPN等其他架构相比,宽度和高度的动态范围更小。因此,回归目标的高度和宽度将成为一个更容易的优化问题。最后,MatrixNets可以用作任何对象检测架构,基于锚点或基于关键点,单次或两次检测器。MatrixNetsforkeypoint-baseddetection当CornerNet被提出时,它的目的是取代anchor-based检测,后者使用一对角点(左上角和右下角)来预测边界框。对于每个角,CornerNet预测热图、偏移量和嵌入。上图是一个基于关键点的目标检测框架——KP-xNet,由4个步骤组成。(a-b):使用xNet的主干;(c):使用sharedoutputsub-network,对每个矩阵层,预测左上角和右下角的heatmap和offset,并在目标层对齐做中心点预测;(d):在同一层使用中心点预测匹配角点,然后将所有层的输出与softnon-maximumsuppression结合起来得到最终的输出。实验结果下表显示了在MSCOCO数据集上的结果:研究人员还根据不同主干上的参数数量,将新提出的模型与其他模型进行了比较。在第一张图中,我们发现KP-xNet在所有参数级别都优于所有其他结构。研究人员认为这是因为KP-xNet使用了比例和纵横比感知架构。论文地址:https://arxiv.org/pdf/1908.04646.pdf
