大数据文摘编译:张瑞仪,宁静计算机视觉是一门交叉学科,研究如何在高层次上理解数字图像或视频。在大脑(主要是视觉皮层)中看到的能力。想象一下,如果我们要为盲人设计一款导览产品,当盲人过马路时,系统摄像头拍摄到如下画面,那么需要完成哪些视觉任务呢?图像分类:将图片中出现的物体归类到它们的类别标签中,比如图片中的人数、建筑物、街道、车辆等;目标检测:从图片或视频中提取感兴趣的目标,对于盲人引导系统来说,各种车辆、行人、交通标志、红绿灯等都是需要关注的对象;图像语义分割:需要勾勒出视野中的车辆和道路,这就需要图像语义分割技术作为支撑,在图像对象中勾勒出前景物体的轮廓;场景文字识别:道路名称、绿灯倒计时秒数、店铺名称等,这些文字对于导盲功能的实现也至关重要。以上已经包含了计算机视觉(CV)领域的四大任务。CV领域主要有八个任务。其他四项任务包括:图像生成、人体关键点检测、视频分类和度量学习。目标检测作为CV的主要任务之一,对于图片的理解也有着重要的作用。在本文中,我们将介绍目标检测的基础知识,并回顾一些最常用的算法和一些新方法。(注:每节展示的论文图片在节末给出了具体链接)目标检测是如何工作的目标检测是定位图像中物体的位置,并在物体周围绘制一个边界框,通常涉及到两个processes,对对象类型进行分类,然后在该对象周围绘制一个框。现在我们来回顾一下一些常见的物体检测模型架构:R-CNNFastR-CNNFasterR-CNNMaskR-CNNSSD(SingleShotMultiBoxDefender)YOLO(YouOnlyLookOnce)1.R-CNN该技术结合了两个主要方法:将大容量卷积神经网络应用于对象定位和分割的自下而上区域建议,以及辅助任务的监督预训练。随后进行特定领域的微调,从而提高性能。该论文的作者将算法命名为R-CNN(RegionswithCNNFeatures),因为它将区域提议与卷积神经网络相结合。该模型输入一张图像并提取大约2000个自下而上的候选区域,然后使用大型CNN计算每个候选区域的特征,然后使用类特定的线性支持向量机(SVM)进行分类每个区域,该模型在PASCALVOC2010上的平均精度达到53.7%。模型中的目标检测系统具有三个模块:第一个模块负责生成类无关的提案,这些提案定义了模型检测器可用的候选检测器集;第二个模块是一个大的卷积神经网络,负责从每个区域中提取一个固定长度的特征向量;第三个模块由一类支持向量机组成。该模型使用选择性搜索在内部生成区域类别,该类别根据颜色、纹理、形状和大小对相似区域进行分组。对于特征提取,模型得到一个4096维的特征向量,一个227×227的RGB图像,通过在每个候选区域上应用CaffeCNN(卷积神经网络),通过五个卷积层和两个全连接层的前向传播来计算特征,本节末尾链接的论文中解释的模型比之前在PASCALVOC2012上的结果提高了30%。R-CNN的一些缺点是:训练是一项多阶段任务,在对象区域上调整ConvNet,使SVM(支持向量机)适配ConvNet(卷积网络)函数,最终学习边界框回归;traininginspace两者在时间和时间上都很昂贵,因为VGG16是一个深度网络,占用空间大;对象检测很慢,因为它对每个区域建议执行ConvNet前向传递。相关论文和参考文献的链接:https://arxiv.org/abs/1311.2524?source=post_pagehttp://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_pagehttps//heartbeat.fritz.ai/a-beginners-guide-to-convolutional-neural-networks-cnn-cf26c5ee17ed?source=post_page2。FastR-CNN下图所示的论文提出了一种基于区域的快速卷积AProductiveNetworkapproach(FastR-CNN)forobjectdetection,在Caffe中实现(使用Python和C++),模型在上达到了66%的平均准确率PASCALVOC2012,与R-CNN的62%相比。与R-CNN相比,FastR-CNN具有更高的平均准确率,单阶段训练,更新所有网络层进行训练,特征缓存不需要磁盘存储。在其结构中,FastR-CNN以一张图像作为输入,同时得到一组候选区域。然后,它使用卷积层和最大池化层处理图像以生成卷积特征图。在每个特征图中,对于每个感兴趣区域(ROI),池化层为每个候选区域提取一个固定大小的特征向量。然后将这些特征向量发送到一个全连接层,在那里它们分支成两个输出层,一个为几个对象类产生softmax概率估计,另一个为每个对象类产生四个实数值,这4个数字代表每个对象边界框的位置。相关内容参考链接:https://github.com/rbgirshick/fast-rcnn?source=post_page3.FasterR-CNNFasterR-CNN:Real-timetargetdetectionusingcandidateareanetwork,trainingmechanismproposed,which可以微调区域任务和微调对象检测。FasterR-CNN模型由两个模块组成:一个提取区域建议的深度卷积网络,并使用这些区域FastR-CNN检测器,一个区域建议网络,它将图像作为输入并产生矩形区域建议的输出,每个区域建议具有检测分数。相关论文参考链接:https://arxiv.org/abs/1506.01497?source=post_page4。MaskR-CNN下面论文提出的模型是上述FasterR-CNN架构的扩展,同样可以估计人体姿态。在该模型中,对象通过边界框和语义分割进行分类和定位,语义分割对图像中的每个像素进行分类。该模型通过在每个感兴趣区域(ROI)处添加来自分割掩码的预测来扩展FasterR-CNN。MaskR-CNN产生两个输出,类标签和边界框。相关论文参考链接:https://arxiv.org/abs/1703.06870?source=post_page5。SSD:SingleShotMultiBoxDetectorz以下论文提出了一种使用单个深度神经网络预测图像中对象的模型。网络使用特征图的小卷积滤波器为每个对象类别生成分数。该方法使用前馈卷积神经网络为特定对象生成一组边界框和分数。添加了卷积特征层以允许在多个尺度上进行特征检测。在这个模型中,每个特征图单元都与一组默认边界框相关联,下图显示了SSD512模型在动物、车辆和家具上的性能。相关内容参考链接:https://arxiv.org/abs/1512.02325?source=post_page6。YouOnlyLookOnce(YOLO)下图所示的文章提出了一个单一的神经网络,可以在单次评估中预测图像中的边界框和类别概率。YOLO模型每秒实时处理45帧,YOLO将图像检测视为回归问题,这使得它的流水线非常简单,因此模型速度非常快。它可以实时处理流视频,延迟小于25秒,并且在训练期间YOLO可以看到整个图像,因此能够在对象检测中包含上下文。在YOLO中,每个boundingbox都是通过整幅图像的特征来预测的,每个boundingbox有5个预测,x,y,w,h和confidence,(x,y)表示相对于gridcellboundingbox中心,w和h是整个图像的预测宽度和高度。该模型使用卷积神经网络实现,并在PASCALVOC检测数据集上进行评估。网络的卷积层负责提取特征,而全连接层则预测坐标和输出概率。该模型的网络架构受到用于图像分类的GoogLeNet模型的启发。该网络有24个卷积层和2个全连接层。该模型的主要挑战在于它只能预测一个类别,并且表现良好,例如鸟类。在类的小对象上表现不佳。该模型的平均AP准确率为52.7%,但能够达到63.4%。参考链接:https://arxiv.org/abs/1506.02640?source=post_page将目标视为一个点所有其他对象属性。这些属性包括3D位置、姿势方向和大小。它使用CenterNet,这是一种基于中心点的方法,比其他边界框检测器更快、更准确。对象大小和姿势等属性在中心位置针对图像特征进行回归。在此模型中,图像被馈送到卷积神经网络以生成热图。这些热图中的最大值表示图像中对象的中心。为了估计人体姿势,该模型检查二维关节位置并将它们回归到中心点位置。该模型以每秒1.4帧的速度实现了45.1%的COCO平均准确率,下图显示了这与其他研究论文中结果的对比情况。论文参考链接:https://arxiv.org/abs/1904.07850v2?source=post_pageDataAugmentationStrategyforObjectDetectionDataaugmentation通过旋转和调整原始图像的大小来创建新的图像数据。虽然该策略本身不是模型结构,但下面的论文提出了创建转换,它指的是可以应用于转移到其他对象检测数据集的对象检测数据集。转换通常在训练期间应用。在该模型中,增强策略被定义为在训练期间随机选择的一组n个策略,该模型中应用的一些操作仅包括颜色通道失真、几何图像失真和边界框注释中的像素失真。在COCO数据集上的实验表明,优化数据增强策略能够将检测精度提高超过+2.3平均精度,这使得单个推理模型的精度达到50.7平均精度。相关论文参考链接:https://arxiv.org/abs/1906.11172v1?source=post_page总结我们现在应该了解一些常见的——以及一些最近在各种环境中应用的对象检测技术。上面提到和链接的论文/摘要也包含指向其代码实现的链接。不要限制自己,物体检测也可以存在于智能手机内部,总之,我们需要不断探索和学习。相关报道:https://heartbeat.fritz.ai/a-2019-guide-to-object-detection-9509987954c3【本文为专栏组织大数据文摘原创翻译,微信公众号《大数据文摘》(id:BigDataDigest)”]点此查看该作者更多好文
