人工智能中的图像处理人工智能在图像处理方面有不同的任务。在本文中,我将解释对象检测和图像分割之间的区别。在这两个任务中,我们都想在图像中找到一些感兴趣的项目的位置。例如,我们可以收集一组安全摄像头的照片,在每张照片上,我们想要识别照片中每个人的位置。通常有两种方法可用于此:对象检测和图像分割。对象检测——预测边界框当我们谈论对象检测时,我们通常会谈论边界框。这意味着我们的图像处理将识别图片中每个人周围的矩形。边框通常由左上角的位置(2个坐标)以及以像素为单位的宽度和高度来定义。来自开放图像数据集的注释图像。来自mwvchamber的家庭雪人。图片在CCBY2.0许可下使用。如何理解物体检测方法?如果我们回到任务:识别图片上的所有人,通过边界框进行对象检测的逻辑就可以理解了。我们的第一个解决方案是将图像切成小块,然后对每个子图像进行图像分类,以判断图像是否为人。对单个图像进行分类是一项更容易的任务,也是目标检测之一,因此他们采用了这种循序渐进的方法。目前,YOLO模型(YouOnlyLookOnce)是解决这个问题的伟大发明。YOLO模型的开发人员构建了一个能够一次执行整个边界框方法的神经网络!当前用于对象检测的最佳模型YOLOFasterRCNNImageSegmentation-PredictionMask逐步扫描图像的逻辑替代方案是远离帧,而是逐像素注释图像。如果这样做,您将拥有一个更详细的模型,它基本上是输入图像的转换。如何理解图像分割方法?这个想法很基本:即使在扫描产品上的条形码时,也可以应用一种算法来转换输入信息(通过应用各种过滤器),使得除了条形码序列之外的所有信息在最终的图像中都不可见。左图:https://commons.wikimedia.org/wiki/File:Image-segmentation-example.jpg。右图:https://commons.wikimedia.org/wiki/File:Image-segmentation-example-segmented.png。这两个文件都支持https://en.wikipedia.org/wiki/en:Creative_Commons这是在图像上定位条形码的基本方法,但类似于图像分割中发生的情况。图像分割的返回格式称为掩码:与原始图像大小相同的图像,但对于每个像素,它只有一个布尔值,指示对象是否存在。如果我们允许多个类别,它会变得更加复杂:例如,它可以将海滩景观分为三类:空气、海洋和沙子。目前图像分割最好的模型MaskRCNNUnetSegnet对比总结物体检测输入是一个矩阵(输入图像)每个像素有3个值(红、绿、蓝)如果是黑白,每个像素有1个值输出是由左上角和大小定义的边界框列表ImageSegmentationInput是一个矩阵(输入图像),每个像素有3个值(红色,绿色,蓝色),如果是黑色和白色,每个像素有1个值输出是一个矩阵(maskimage),每个像素都有一个包含指定类别的值
