当前位置: 首页 > 网络应用技术

人工智能专业术语:对象,卷积神经网络和Yolo的识别是什么?

时间:2023-03-09 13:05:52 网络应用技术

  初学者区分不同的相关计算机视觉任务可能具有挑战性。例如,图像分类更容易理解,但是目标定位和目标检测之间的差异可能会令人困惑,尤其是当所有三个任务都等同于目标识别时。

  图像分类涉及图像的图像分配,目标定位涉及图像中一个或多个对象绘制边界框。目标检测更具挑战性。它结合了这两个任务,并在图像中的每个有兴趣的目标周围绘制一个边界框,并为其分配一个类标签。所有这些问题统称为目标识别。

  在本文中,您将找到有关目标识别问题和旨在解决该问题的最先进的深度学习模型的详细介绍。阅读本文后,您将知道:

  对象识别是一个通用术语,它描述了与涉及对象涉及对象的对象相关的计算机视觉任务的集合。

  图像分类涉及预测图像中的目标类别。目标定位是指图像中一个或多个对象的位置并绘制其周围的边界框。目标检测结合了这两个任务和位置,并分类一个或多个图像中的对象。

  因此,我们可以区分这三个计算机视觉任务:

  图像分类:预测图像中对象的类型或类别。

  客观定位:将对象定位在图像中并用边界框指示其位置。

  目标检测:边界框架目标的存在以及图像中定位的对象的类型或类别。

  该计算机视觉任务分割的进一步扩展是目标分割,也称为“目标实例分割”或“语义分割”。其中,通过突出显示对象而不是粗糙的边界框来显示对象的对象的示例。从本段,我们可以看到对象识别是指一组挑战性的计算机视觉任务。

  大多数图像识别问题的最新创新是ILSVRC任务的一部分。这是一项年度学术竞争。这三种类型的问题中的每一个都有一个单独的挑战。目的是在每个级别上促进独立性和个人改进,可以更广泛地使用。例如,请参阅以下三个相应的任务类型:

  我们可以看到,“单个目标定位”是更简单的“目标定位”的版本。它将定位任务限制在图像中的目标类型上。我们可以假设这是一个更容易的任务。以下是单个对象定位和对象检测的示例,该示例是从ILSVRC纸中获取的。

  使用预测标签的平均分类误差来评估图像分类模型的性能。预期的边界和预测边界框架之间的距离用于评估单个对象定位模型的性能。图像中的每个最佳匹配边界框都使用每个最佳匹配边界框架的性能来评估对象识别模型的性能。

  现在,我们已经熟悉对象定位和测试的问题。让我们看一下一些最近执行的深度学习模型。

  R-CNN系列方法是指R-CNN,它可能代表Ross Girshick等人开发的“具有CNN特征的区域”或“区域卷积神经网络”。

  这包括R-CNN,快速R-CNN和为目标定位和目标识别设计和演示的更快的RCNN技术。

  1)卷积神经网络(R-CNN)

  ROSS Girshick等人描述了R -CNN。这可能是卷积神经网络在目标定位,检测和细分问题上的首批大规模成功应用之一。该方法已在基准数据集中证明,并且是最多的。当时的高级结果是在VOC-2012数据集和200 ILSVRC-2013对象检测数据集上获得的。

  他们提出的R-CNN模型由三个模块组成。他们是:

  计算机视觉技术用于在名为“选择性搜索”的图像中提出候选区域或潜在目标的边界框架,尽管设计的灵活性允许使用其他区域提案算法。

  该模型中使用的特征提取器是Alexnet Deep CNN,它在ILSVRC-2012图像分类竞赛中获胜。CNN的输出是描述图像内容的4,096个元素向量。向量发送到线性SVM进行分类。具体而言,每个已知类别都训练SVM。

  这是对对象定位和识别问题的相对简单而直接的应用。该方法的缺点是速度很慢,并且需要基于CNN的特征提取,而该区域建议算法是一个问题,因为这是一个问题,因为本文描述了该论文。测试过程中每个图像的大约2,000个建议区域的模型。

  2)快速R-CNN

  鉴于R-CNN取得了巨大的成功,当时在微软研究所工作的Ross Girshick在2015年在题为“ Fast R-CNN”的论文中提出了一项扩展,以解决R-CNN的速度。

  本文首先回顾了R-CNN的局限性,摘要如下:

  提出了快速的R-CNN来学习和输出区域和分类直接作为单个模型而不是管道。

  该模型的体系结构提出了照片中的一组区域作为输入,并通过深卷积神经网络进行了。Pre-Training CNN,例如VGG-16,用于特征提取。深度CNN的末端是自定义层,称为粘合层或兴趣区域的ROI池池。

  然后通过完整的连接层来解释CNN的输出,然后将模型分为两个输出。一个用于通过SoftMax层预测类别,另一个是边界的线性输出。然后,在给定图像中的每个感兴趣的领域中多次重复此过程。

  该模型的训练速度和预测速度要快得多,但是它仍然需要提出一组带有每个输入图像的候选区域。

  3)更快的R-CNN

  Shaoqing Ren其他人进一步改善了模型体系结构,以提高训练速度和检测速度。在Microsoft Research的2016年论文“更快的R-CNN:使用区域建议网络进行实时对象检测”。

  该体系结构是获得ILSVRC-2015和MS COCO-2015目标识别和检测竞赛任务的第一名的基础。该体系结构旨在作为培训过程的一部分提出和改善区域建议,称为区域提案网络或RPN.in.in.in.in.in单个模型的设计,这些区域与快速R-CNN模型一起使用。这些改进不仅减少了区域建议的数量,而且还将模型的测试时间操作加速到实时,并且具有最多当时的高级性能。

  尽管它是一个单一的统一模型,但该体系结构由两个模块组成:

  这两个模块都在与Deep CNN相同的输出上运行。区域提案网络是快速R-CNN网络的注意机制,以通知第二个网络以查看或引起注意。

  RPN的工作原理是在预训练中获得深度CNN(例如VGG-16)的输出,并通过功能图上的小网络传递,并输出每个区域的多个区域建议和类别预测。区域建议是基于SO所谓的锚固框架或预定形状的边界框架,旨在加速和改善区域建议。类别预测是二进制的,表明有一个对象或没有对象,即SO -so -被称为拟议区域的“客观”。

  同时使用两个子网络使用替代训练的过程被交错。这允许在CNN深度中进行两个任务或细分特征检测器的参数。

  另一个流行的对象识别模型系列共同称为Yolo,或者“您只看一次(一次

  你只看一次

  )“”,由约瑟夫·雷德蒙(Joseph Redmon)等人开发。

  R-CNN模型通常更准确,但是YOLO系列模型快速,比R-CNN快得多,并且可以实时实现目标检测。

  1)YOLO

  约瑟夫·雷德蒙(Joseph Redmon)和其他人首先描述了Yolo模型。

  你只看一次

  :在统一实时目标测试的论文中。“请注意,R-CNN开发人员Ross Girshick也是这项工作的作者和贡献者,然后是Facebook AI研究。

  该方法涉及末端到末端训练的单个神经网络。它使用照片作为输入,并直接预测每个边界框架的边界框和类标签。此技术提供了较低的预测准确性(例如,更多定位错误),尽管每秒45帧的速度为45帧,用于优化的速度优化版本该模型,每秒的速度高达155帧。

  该模型首先分为单元格网格。如果边界框的中心落在单元格中,则每个单元都负责预测边界框。每个电网单元预测一个包含x,y坐标以及宽度和高度和信心的边界框。类别预测也基于每个细胞。

  例如,图像可以分为7×7网格。网格中的每个单元格可以预测2个边界框,生成94个提议的边框框预测。然后将类概率图和自信边框框架组合到一组最终边界框和类标签中。图像从论文中截获了,总结了两个图像模型的输出。

  2)Yolov2(Yolo9000)和Yolov3

  2016年,约瑟夫·雷德蒙(Joseph Redmon)和阿里·法哈迪(Ali Farhadi)在2016年的“ Yolo9000:更好,更快,更强大”的论文中对该模型进行了更新,以进一步提高模型性能。

  尽管该模型的这种变体称为Yolo V2,但它描述了该模型的实例,该实例在两个目标识别数据集对并行训练中进行了训练,并且可以预测9,000个目标类别,因此被称为“ Yolo9000”。

  模型有许多培训和架构变化,例如使用批处理标准化和高分辨率输入图像。

  像更快的R -CNN一样,YOLOV2模型也使用锚框,这是一个预定的边框框,在训练过程中定制了有用的形状和大小。图像边界框的选择是使用KME的k平均分析进行预处理。培训数据集。

  重要的是,边界框的预测表明发生了变化,从而使小更改对预测产生了很小的影响,从而产生了更稳定的模型。这不是直接的预测位置和规模,而是预测偏移要移动和重塑预定义的锚框相对于网格单元,并通过逻辑函数抑制它。

  约瑟夫·雷德蒙(Joseph Redmon)和阿里·法哈迪(Ali Farhadi)在2018年题为“ Yolov3:增量改进”的模型中提出了进一步的改进。改进非常小,包括更深的特征探测器网络和较小的表示变化。

  人工智能进入了我们的生活,并应用于各个领域。它不仅为行业带来了巨大的经济利益,而且为我们的生活带来了许多变化和便利。

  目标检测技术安全场景的示例:

  在人工智能技术+视频领域中,tsingsee绿犀牛视频基于视频领域的技术经验积累。它还不断地将AI检测和智能识别技术开发为各种视频应用程序,进行测试,危险行为(攀爬,下降,推动等)测试和识别。能够面对面识别,车牌识别,语音对讲机,妇女级控制,声音警报,监视视频分析和数据摘要的能力。