【.com快译】近年来,随着人工智能技术的发展和进步,计算机视觉和深度学习受到了业界的广泛关注。值得赞扬的是,以前被认为极具挑战性的对象检测应用程序现在更容易创建。对象检测可以定义为一种计算机视觉技术,旨在识别和定位图像或视频中的对象。虽然计算机通常能够比人类更快地处理信息,但计算机仍然难以检测图像或视频上的各种对象。这是因为计算机只能用二进制语言解释大部分输出。本文旨在简要讨论:对象检测基础知识对象检测模型对象检测优势挑战和解决方案在讨论这些要点之前,有必要了解图像分类和对象检测之间的区别。初学者很容易混淆。目标检测和图像分类之间的区别让我们首先分析目标检测和图像分类以了解它们之间的区别。当AI系统查看一张狗的图片时,它可以立即指向动物的图像,这意味着它可以弄清楚图像的内容。这就是图像分类的全部内容。只要有物体,就可以使用图像分类技术。但如果有多个对象,那就是对象检测技术发挥作用的时候了。通过围绕感兴趣的对象构建矩形框,它可以帮助AI系统识别每个框包含的对象。您还可以使用此方法来指示对象的确切位置。而一张图片可能包含多个物体,因此可能会显示多个边界框。物体检测的应用是无限的,但它们通常识别和检测真实物体,例如人、建筑物、汽车等。此外,人工智能系统需要大量不同类型物体的标记数据,以便在未来识别这些物体。这意味着在标记数据集上训练的机器学习模型将有更多机会做出准确的预测。部分行业厂商提供数据标注服务,用户只需根据自己的需求选择合适的服务即可。该技术广泛用于人/物体跟踪和视频监控摄像头应用,下面将进一步详细说明。对象检测模型现在您已经知道什么是对象检测,让我们来看看一些流行的对象检测模型。(1)R-CNN、FasterR-CNN、MaskR-CNN最流行的目标检测模型属于基于区域的CNN模型家族。该模型彻底改变了物体检测领域过去的工作方式。在过去的几年中,它们不仅变得更加准确,而且更加高效。(2)SSD和YOLO在2016年发布的single-shotdetector系列中有很多模型。虽然single-shotmulti-boxdetection(SSD)模型检测速度比CNN模型快,但是精度远低于CNN。YOLO模型与基于区域的算法有很大不同。就像SDD模型一样,YOLO模型比R-CNN模型更快,但由于精度低而落后。对于移动或嵌入式设备,SDD模型是一个不错的选择。(3)CenterNet这些物体检测模型近年来越来越流行。CentreNet遵循基于关键点的对象检测方法。与SSD模型或R-CNN模型相比,该模型被证明更高效和准确。这种方法的唯一缺点是训练过程缓慢。对象检测在现实世界中的好处对象检测与其他类似的计算机视觉技术(例如图像分割和图像识别)完全互连,以帮助人们理解和分析视频和图像中的场景。今天,目标检测市场中有一些真实的用例对不同的行业领域产生了巨大的影响。(1)自动驾驶汽车自动驾驶汽车成功背后的主要原因是基于实时物体检测人工智能的模型。这些系统使人们能够定位、识别和跟踪周围的物体,以确保安全和高效。(2)视频监控实时目标检测和目标运动跟踪使视频监控摄像机能够跟踪特定位置(例如机场)的场景记录。这种最先进的技术可以准确地识别和定位视频中给定对象的多个实例。当对象实时移动通过给定场景或通过特定帧时,视频监控系统会存储带有实时跟踪源的信息。(3)人群统计对于购物中心、机场、城市广场和主题公园等人口密集区域,此应用程序的效果非常好。对象检测应用程序已被证明可以帮助大型公司和市政当局在特定时间范围内跟踪道路交通、违规行为和车辆数量。(4)异常检测对于使用对象检测的不同行业,有多种异常检测应用程序可用。例如在农业中,物体检测模型可以准确识别和发现潜在的植物病害实例。在这些技术的帮助下,农民将了解情况并能够防止他们的作物受到疾病的威胁。作为另一个例子,该模型已被用于识别皮肤感染和症状性病变。一些应用程序已经将对象检测模型用于皮肤护理和痤疮治疗。需要记住的是,在创建任何类型的对象检测模型时都存在一些问题。但是可以使用一些解决方案来应对这些挑战。目标检测建模挑战及解决方案(1)目标定位目标检测的第一个挑战是对目标的图像和位置进行分类,称为目标定位。为了解决这个问题,大多数开发人员经常使用多任务损失函数来惩罚定位和分类错误。解决方案:Region-BasedConvolutionalNeuralNetworks展示了一类对象检测框架,具有对象可能位于的区域生成方案,然后进行CNN模型处理以分类和校正对象位置。Fast-RCNN模型可以改进R-CNN的初始结果。顾名思义,FastR-CNN模型提供了令人难以置信的速度和更高的准确性,因为定位和对象分类任务使用多任务损失函数进行了优化。(2)实时检测快速目标检测算法一直是实时视频处理中同时准确分类和定位关键目标的主要问题。多年来,一些算法已将测试时间从每秒0.02帧提高到每秒155帧。解决方案:FasterR-CNN和FastR-CNN模型旨在加快R-CNN方法的原始速度。由于R-CNN使用选择性搜索来生成2000个候选感兴趣区域,并单独通过每个基于CNN的模型,这可能会在模型处理失败后导致严重的瓶颈。而FastR-CNN模型通过CNNbase传输一次图像,然后将选择性搜索创建的ROI匹配到特征图上,同时减少了20倍的处理时间。(3)多种纵横比和尺寸对于多目标检测应用,感兴趣的项目可能以多种纵横比和不同尺寸出现。研究人员展示了几种确保检测算法能够识别不同视角和大小的不同物体的方法。解决方案:FasterR-CNN不是选择性搜索,而是使用区域建议网络进行更新,该网络在图像的卷积特征图上使用一个小的滑动窗口来生成感兴趣的区域。可以在不同位置预测多个感兴趣区域,并相对于参考锚框进行描述。选择这些锚框的大小和形状以跨越一系列纵横比和不同大小。它允许识别多种类型的对象,希望在定位任务期间无需调整边界框坐标。(4)标注数据量有限需要考虑的不可否认的事实之一是标注数据量有限,这成为构建应用程序的障碍。这些数据集具体包含数十到数百个对象的真实示例,而图像分类数据集包含大约100,000个不同的类。解决方案:现在市场上有一些图像数据集,比如微软公司提供的COCODataset,目前使用的是一些物体检测标注数据。该数据集包含300,000张分割图像,其中包含基于精确位置标签的80个不同对象类别。每张图像平均包含7个对象和项目,它们以非常大的比例出现。减少数据稀缺性的最重要方法之一是YOLO9000(YOLO的第二个版本)。YOLO9000处理了YOLO的许多关键更新,但它也旨在缩小图像分类和目标检测之间的数据集差距。此外,它还训练ImageNet和COCO,这是一个具有数万个对象类别的图像分类数据集。结论根据消息来源,目标检测被认为比图像分类困难得多,特别是为了解决上述问题。研究人员继续努力减少这些障碍,有时会取得惊人的成果,但仍然存在重大问题。当然,所有对象检测模型都难以处理较小的对象,尤其是那些部分被遮挡并聚集在一起的对象。具有对象分类和定位准确性的实时检测仍然是一个值得注意的问题,这是研究人员在做出设计决策时经常优先考虑的事情之一。从乐观的角度来看,视频跟踪技术未来可能会在其他应用场景中看到一些进展。原标题:Beginner'sGuidetoObjectDetectionforComputerVisionProject,作者:AnalyticsInsight
