对于目标检测，这篇文章就够了！2019综合目标检测指南

时间：2023-03-14 19:23:55 科技观察

大数据文摘编译：张瑞仪，宁静计算机视觉是一门交叉学科，研究如何在高层次上理解数字图像或视频。在大脑（主要是视觉皮层）中看到的能力。想象一下，如果我们要为盲人设计一款导览产品，当盲人过马路时，系统摄像头拍摄到如下画面，那么需要完成哪些视觉任务呢？图像分类：将图片中出现的物体归类到它们的类别标签中，比如图片中的人数、建筑物、街道、车辆等；目标检测：从图片或视频中提取感兴趣的目标，对于盲人引导系统来说，各种车辆、行人、交通标志、红绿灯等都是需要关注的对象；图像语义分割：需要勾勒出视野中的车辆和道路，这就需要图像语义分割技术作为支撑，在图像对象中勾勒出前景物体的轮廓；场景文字识别：道路名称、绿灯倒计时秒数、店铺名称等，这些文字对于导盲功能的实现也至关重要。以上已经包含了计算机视觉（CV）领域的四大任务。CV领域主要有八个任务。其他四项任务包括：图像生成、人体关键点检测、视频分类和度量学习。目标检测作为CV的主要任务之一，对于图片的理解也有着重要的作用。在本文中，我们将介绍目标检测的基础知识，并回顾一些最常用的算法和一些新方法。（注：每节展示的论文图片在节末给出了具体链接）目标检测是如何工作的目标检测是定位图像中物体的位置，并在物体周围绘制一个边界框，通常涉及到两个processes，对对象类型进行分类，然后在该对象周围绘制一个框。现在我们来回顾一下一些常见的物体检测模型架构：R-CNNFastR-CNNFasterR-CNNMaskR-CNNSSD(SingleShotMultiBoxDefender)YOLO(YouOnlyLookOnce)1.R-CNN该技术结合了两个主要方法：将大容量卷积神经网络应用于对象定位和分割的自下而上区域建议，以及辅助任务的监督预训练。随后进行特定领域的微调，从而提高性能。该论文的作者将算法命名为R-CNN（RegionswithCNNFeatures），因为它将区域提议与卷积神经网络相结合。该模型输入一张图像并提取大约2000个自下而上的候选区域，然后使用大型CNN计算每个候选区域的特征，然后使用类特定的线性支持向量机(SVM)进行分类每个区域，该模型在PASCALVOC2010上的平均精度达到53.7%。模型中的目标检测系统具有三个模块：第一个模块负责生成类无关的提案，这些提案定义了模型检测器可用的候选检测器集;第二个模块是一个大的卷积神经网络，负责从每个区域中提取一个固定长度的特征向量；第三个模块由一类支持向量机组成。该模型使用选择性搜索在内部生成区域类别，该类别根据颜色、纹理、形状和大小对相似区域进行分组。对于特征提取，模型得到一个4096维的特征向量，一个227×227的RGB图像，通过在每个候选区域上应用CaffeCNN（卷积神经网络），通过五个卷积层和两个全连接层的前向传播来计算特征，本节末尾链接的论文中解释的模型比之前在PASCALVOC2012上的结果提高了30%。R-CNN的一些缺点是：训练是一项多阶段任务，在对象区域上调整ConvNet，使SVM（支持向量机）适配ConvNet（卷积网络）函数，最终学习边界框回归；traininginspace两者在时间和时间上都很昂贵，因为VGG16是一个深度网络，占用空间大；对象检测很慢，因为它对每个区域建议执行ConvNet前向传递。相关论文和参考文献的链接：https://arxiv.org/abs/1311.2524?source=post_pagehttp://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_pagehttps//heartbeat.fritz.ai/a-beginners-guide-to-convolutional-neural-networks-cnn-cf26c5ee17ed?source=post_page2。FastR-CNN下图所示的论文提出了一种基于区域的快速卷积AProductiveNetworkapproach(FastR-CNN)forobjectdetection，在Caffe中实现（使用Python和C++），模型在上达到了66%的平均准确率PASCALVOC2012，与R-CNN的62%相比。与R-CNN相比，FastR-CNN具有更高的平均准确率，单阶段训练，更新所有网络层进行训练，特征缓存不需要磁盘存储。在其结构中，FastR-CNN以一张图像作为输入，同时得到一组候选区域。然后，它使用卷积层和最大池化层处理图像以生成卷积特征图。在每个特征图中，对于每个感兴趣区域（ROI），池化层为每个候选区域提取一个固定大小的特征向量。然后将这些特征向量发送到一个全连接层，在那里它们分支成两个输出层，一个为几个对象类产生softmax概率估计，另一个为每个对象类产生四个实数值，这4个数字代表每个对象边界框的位置。相关内容参考链接：https://github.com/rbgirshick/fast-rcnn?source=post_page3.FasterR-CNNFasterR-CNN:Real-timetargetdetectionusingcandidateareanetwork,trainingmechanismproposed,which可以微调区域任务和微调对象检测。FasterR-CNN模型由两个模块组成：一个提取区域建议的深度卷积网络，并使用这些区域FastR-CNN检测器，一个区域建议网络，它将图像作为输入并产生矩形区域建议的输出，每个区域建议具有检测分数。相关论文参考链接：https://arxiv.org/abs/1506.01497?source=post_page4。MaskR-CNN下面论文提出的模型是上述FasterR-CNN架构的扩展，同样可以估计人体姿态。在该模型中，对象通过边界框和语义分割进行分类和定位，语义分割对图像中的每个像素进行分类。该模型通过在每个感兴趣区域(ROI)处添加来自分割掩码的预测来扩展FasterR-CNN。MaskR-CNN产生两个输出，类标签和边界框。相关论文参考链接：https://arxiv.org/abs/1703.06870?source=post_page5。SSD:SingleShotMultiBoxDetectorz以下论文提出了一种使用单个深度神经网络预测图像中对象的模型。网络使用特征图的小卷积滤波器为每个对象类别生成分数。该方法使用前馈卷积神经网络为特定对象生成一组边界框和分数。添加了卷积特征层以允许在多个尺度上进行特征检测。在这个模型中，每个特征图单元都与一组默认边界框相关联，下图显示了SSD512模型在动物、车辆和家具上的性能。相关内容参考链接：https://arxiv.org/abs/1512.02325?source=post_page6。YouOnlyLookOnce(YOLO)下图所示的文章提出了一个单一的神经网络，可以在单次评估中预测图像中的边界框和类别概率。YOLO模型每秒实时处理45帧，YOLO将图像检测视为回归问题，这使得它的流水线非常简单，因此模型速度非常快。它可以实时处理流视频，延迟小于25秒，并且在训练期间YOLO可以看到整个图像，因此能够在对象检测中包含上下文。在YOLO中，每个boundingbox都是通过整幅图像的特征来预测的，每个boundingbox有5个预测，x,y,w,h和confidence，(x,y)表示相对于gridcellboundingbox中心，w和h是整个图像的预测宽度和高度。该模型使用卷积神经网络实现，并在PASCALVOC检测数据集上进行评估。网络的卷积层负责提取特征，而全连接层则预测坐标和输出概率。该模型的网络架构受到用于图像分类的GoogLeNet模型的启发。该网络有24个卷积层和2个全连接层。该模型的主要挑战在于它只能预测一个类别，并且表现良好，例如鸟类。在类的小对象上表现不佳。该模型的平均AP准确率为52.7%，但能够达到63.4%。参考链接：https://arxiv.org/abs/1506.02640?source=post_page将目标视为一个点所有其他对象属性。这些属性包括3D位置、姿势方向和大小。它使用CenterNet，这是一种基于中心点的方法，比其他边界框检测器更快、更准确。对象大小和姿势等属性在中心位置针对图像特征进行回归。在此模型中，图像被馈送到卷积神经网络以生成热图。这些热图中的最大值表示图像中对象的中心。为了估计人体姿势，该模型检查二维关节位置并将它们回归到中心点位置。该模型以每秒1.4帧的速度实现了45.1%的COCO平均准确率，下图显示了这与其他研究论文中结果的对比情况。论文参考链接：https://arxiv.org/abs/1904.07850v2?source=post_pageDataAugmentationStrategyforObjectDetectionDataaugmentation通过旋转和调整原始图像的大小来创建新的图像数据。虽然该策略本身不是模型结构，但下面的论文提出了创建转换，它指的是可以应用于转移到其他对象检测数据集的对象检测数据集。转换通常在训练期间应用。在该模型中，增强策略被定义为在训练期间随机选择的一组n个策略，该模型中应用的一些操作仅包括颜色通道失真、几何图像失真和边界框注释中的像素失真。在COCO数据集上的实验表明，优化数据增强策略能够将检测精度提高超过+2.3平均精度，这使得单个推理模型的精度达到50.7平均精度。相关论文参考链接：https://arxiv.org/abs/1906.11172v1?source=post_page总结我们现在应该了解一些常见的——以及一些最近在各种环境中应用的对象检测技术。上面提到和链接的论文/摘要也包含指向其代码实现的链接。不要限制自己，物体检测也可以存在于智能手机内部，总之，我们需要不断探索和学习。相关报道：https://heartbeat.fritz.ai/a-2019-guide-to-object-detection-9509987954c3【本文为专栏组织大数据文摘原创翻译，微信公众号《大数据文摘》（id:BigDataDigest)”]点此查看该作者更多好文

上一篇：Linux命令socat-netcat实用程序的绝佳替代方法

下一篇：如何绕过小程序签名验证

对于目标检测，这篇文章就够了！2019综合目标检测指南相关文章