当前位置: 首页 > 科技观察

深度学习中的图像分割:方法与应用

时间:2023-03-18 01:18:48 科技观察

基于人工智能和深度学习方法的现代计算机视觉技术在过去10年取得了显着进步。如今,它被用于图像分类、人脸识别、图像中的对象识别、视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用。许多计算机视觉任务需要对图像进行智能分割,以了解图像中的内容并简化每个部分的分析。今天的图像分割技术使用计算机视觉深度学习模型来理解图像的每个像素代表什么是真实物体,这在十年前是不可想象的。深度学习可以学习视觉输入的模式来预测构成图像的对象类别。用于图像处理的主要深度学习架构是卷积神经网络(CNN),或特定的CNN框架,例如AlexNet、VGG、Inception和ResNet。用于计算机视觉的深度学习模型通常在专用图形处理单元(GPU)上训练和执行,以减少计算时间。什么是图像分割?图像分割是计算机视觉中的一个关键过程。它涉及将视觉输入分割成多个片段以简化图像分析。片段表示一个对象或对象的一部分,由像素或“超像素”的集合组成。图像分割将像素组织成更大的部分,从而消除了将单个像素作为观察单位的需要。图像分析分为三个层次:分类——将整个图像划分为“人”、“动物”、“户外”等类别。物体检测——检测图像中的物体并在其周围画一个矩形,例如人或羊。分割-识别图像的各个部分并了解它们属于什么对象。分割是目标检测和分类的基础。语义分割与实例分割在分割过程本身中,有两个粒度级别:语义分割-将图像中的所有像素划分为有意义的对象类。这些类别是“语义可解释的”并且对应于现实世界的类别。例如,您可以隔离与猫有关的所有像素并将它们着色为绿色。这也称为密集预测,因为它预测每个像素的含义。实例分割-识别图像中每个对象的每个实例。它与语义分割的不同之处在于它不会对每个像素进行分类。如果图像中有三辆汽车,语义分割将所有汽车分类为一个实例,而实例分割识别每辆汽车。传统的图像分割方法和过去常用的一些图像分割技术不如深度学习技术有效,因为它们使用严格的算法,需要人工干预和专业知识。其中包括:阈值-将图像分割成前景和背景。指定的阈值将像素分为两个级别之一以隔离对象。阈值处理将灰度图像转换为二值图像或区分彩色图像的较亮和较暗像素。K均值聚类-该算法识别数据中的组,变量K表示组数。该算法根据特征相似性将每个数据点(或像素)分配给其中一组。聚类不是分析预定义的组,而是迭代工作,有机地形成组。基于直方图的图像分割-使用直方图根据像素的“灰度”对像素进行分组。简单图像由对象和背景组成。背景通常是灰度,是较大的实体。因此,大峰表示直方图中的背景灰度级。较小的峰值代表对象,这是另一个灰度级。边缘检测-识别亮度的急剧变化或不连续。边缘检测通常涉及将不连续点排列成曲线段或边缘。例如,一片红色和一片蓝色之间的边界。深度学习如何为图像分割方法提供动力现代图像分割技术由深度学习技术提供支持。以下是几种用于分割的深度学习架构:使用CNN进行图像分割,将图像的patch输入到卷积神经网络,由卷积神经网络标记像素。CNN无法一次处理整个图像。它扫描图像,一次查看由几个像素组成的小“过滤器”,直到绘制出整个图像。传统的CNN网络具有全连接层,无法处理不同的输入大小。FCN使用卷积层来处理不同大小的输入,并且可以更快地工作。最终输出层有一个大的感受野,对应于图像的高度和宽度,而通道数对应于类数。卷积层对每个像素进行分类以确定图像的上下文,包括对象的位置。集成学习将两个或多个相关分析模型的结果组合成一个。集成学习可以提高预测精度并减少泛化误差。这允许对图像进行精确的分类和分割。通过集成学习试图生成一组弱基础学习器,对图像的各个部分进行分类,并组合它们的输出,而不是试图创建一个单一的最优学习器。DeepLab使用DeepLab的主要动机之一是执行图像分割,同时帮助控制信号提取——减少样本数量和网络必须处理的数据量。另一个动机是启用多尺度上下文特征学习——从不同尺度的图像中聚合特征。DeepLab使用ImageNet预训练的ResNet进行特征提取。DeepLab使用空洞卷积而不是常规卷积。每个卷积的不同扩张率使ResNet块能够捕获多尺度上下文信息。DeepLab由三部分组成:Atrous卷积——使用一个因子,可以扩展或收缩卷积滤波器的视野。ResNet—Microsoft的深度卷积网络(DCNN)。它提供了一个框架来训练数千层同时保持性能。ResNet强大的表示能力促进了目标检测、人脸识别等计算机视觉应用的发展。Atrousspatialpyramidpooling(ASPP)——提供多尺度信息。它使用一组具有不同扩展率的复杂函数来捕获大范围的上下文。ASPP还使用全局平均池化(GAP)来合并图像级特征并添加全局上下文信息。SegNet神经网络一种基于深度编码器和解码器的架构,也称为语义像素分割。它包括输入图像的低维编码,然后使用解码器中的方向不变性能力恢复图像。然后在解码器端生成分割图像。图像分割的应用图像分割有助于确定对象之间的关系,以及图像中对象的上下文。应用包括面部识别、车牌识别和卫星图像分析。例如,零售和时尚等行业在基于图像的搜索中使用图像分割。自动驾驶汽车使用它来了解周围的环境。对象检测和人脸检测这些应用程序涉及识别数字图像中特定类别的对象实例。语义对象可以分为几类,例如人脸、汽车、建筑物或猫。人脸检测-在许多应用中使用的一种对象检测,包括生物识别和数码相机的自动对焦。算法检测并验证面部特征的存在。例如,眼睛在灰度图像中显示为山谷。医学影像——从医学影像中提取临床相关信息。例如,放射科医生可以使用机器学习通过将图像分割成不同的器官、组织类型或疾病症状来增强分析。这可以减少运行诊断测试所需的时间。机器视觉——捕捉和处理图像以提供设备操作指导的应用。这包括工业和非工业应用。机器视觉系统在专用相机中使用数字传感器,使计算机硬件和软件能够测量、处理和分析图像。例如,检查系统拍摄汽水瓶的照片,然后根据通过/失败标准分析图像以确定瓶子是否正确灌装。视频监控-视频跟踪和移动对象跟踪这涉及定位视频中的移动对象。它的用途包括安全和监视、交通控制、人机交互和视频编辑。自动驾驶自动驾驶汽车必须能够感知和了解周围环境,才能安全驾驶。相关对象类别包括其他车辆、建筑物和行人。语义分割使自动驾驶汽车能够识别图像中哪些区域可以安全驾驶。虹膜识别一种可以识别复杂虹膜图案的生物识别技术。它使用自动模式识别来分析人眼的视频图像。面部识别从视频中识别个人。该技术将从输入图像中选择的面部特征与数据库中的面部进行比较。RetailImageRecognition是一种应用程序,可让零售商了解货架上商品的布局。算法实时处理产品数据以检测货架上是否有产品。如果产品缺货,他们可以找出原因,通知采购员,并为供应链的适当部分推荐解决方案。