当前位置: 首页 > 科技观察

面向图像分析应用的海量样本过滤解决方案

时间:2023-03-21 21:01:49 科技观察

在图像分析应用中,对海量图像样本进行有效的自动过滤是一项重要的基础工作。本文介绍了一种基于多重算法滤波的处理方案,可以自动提取有效图像样本,大大减少人工标注的工作量。背景及问题描述深度学习技术在计算机视觉领域取得了巨大的成功。其标志性事件之一是计算机算法在Imagenet竞赛中的目标识别准确率已经超过了人类。在学术界创新成果呈爆炸式增长的同时,各大公司也纷纷利用深度学习技术,推出了很多与人工智能相关的产品和与图像分析相关的应用系统。这些成果采用的很多技术路线都是利用海量标注样本数据在深度神经网络上训练相应的识别或检测模型。就企业算法应用而言,往往需要根据实际应用场景构建自己的训练样本集,以提高算法的有效性。在深度学习大行其道的今天,获取大量高质量的标注样本是构建高效应用算法体系的重要前提。一方面,与传统算法相比,深度学习的一个突出特点是提供的训练样本越多,算法的准确率越高;另一方面,虽然无监督深度学习算法也取得了长足的进步,但就目前而言,有监督深度学习算法仍然是主流,尤其是对于企业级应用。其中,对于图像识别算法的应用,通常需要获取足够多的不同类型物体的样本图像。其样品来源有四种基本方式:现场拍摄相关物品。这种方法效率比较低,适用于类别较少,每个类别都需要大量高质量样本的情况,比如目标检测;如果识别对象是商品,可以使用商品主图,但商品主图经过图像处理,比较单一,与实际场景不符;通过不同网站的文本搜索或匹配获取相关网络图片,该方法可以获得大量图片样本;通过图像生成的方式获取样本图像,比如近几年发展迅速的生成对抗网络(GAN),有着非常广阔的前景,但是目前需要对大量不同类别的效果加以改进。图1不同渠道获取的商品图像样本示例:摆姿势,b。主图像,和c。网络图像。目前,第三种获取网络图像的方式是常规采用的样本采集方案。来自网络的图像样本的主要问题之一是图像噪声非常严重。如果使用关键字搜索得到要选择的图像集,其中不相关的图像占据了很大的比例,来源比较随机;如果您在电商网站上发布的单张图片是待选图片集合,其中还包含大量不相关的图片,如发票、外包装、聊天记录、顶视图等不合规图片或特写视图。因此,需要对获取的图像集进行过滤,以滤除其中的噪声图像。这种过滤如果靠人工进行,效率太低,难以满足实际需求。应以算法自动筛选为主,人工验证为辅助手段实现。针对这一问题,本文提出了一种实用的基于多处理的图像样本滤波方法。思路和技术步骤通过网络直接获取的图像样本集合一般具有以下特点。噪声图像可分为:重复图像和非常相似图像、普通噪声图像、不规则杂乱噪声图像,各占一定比例;目标样本图像也占有一定比例,与噪声图像相比,其类内相似度更高。参考上述问题的特点,可以有针对性地得出一些解决方案:对于多、复杂的噪声数据,采用多种处理方法逐步筛选出来。噪声数据的种类多变,难以用单一的方法将它们全部筛选出来。根据其特点,采用多轮粗筛和精筛,对不同类型的噪声数据逐批处理,可以降低各环节的技术风险,保证各环节的有效性。由于目标在样本空间的分布比较集中,如果对待选样本集进行无监督聚类,目标样本会集中在一个相对紧凑的簇中。与噪声图像的无序相比,目标样本本身的类内差距相对较小,这一点可以通过大量实际数据的观察得到证实。对于某个样本,分类器返回的类别置信度可以作为样本与类别相关性的度量。普通的聚类算法不易量化样本点与其所属簇之间的相关性,无法做更精细的样本筛选。相比之下,通过使用分类器获得的类置信度可以用作相关性的合适度量,以微调剩余的噪声样本。图2技术方案概述基于以上方案,设计了多重滤波技术方案。具体过程可以分为以下几个步骤(见图2):图像去重:去除重复图像和非常相似的图像;commonNoiseimagefiltering:过滤掉人脸、包裹、发票等不相关的常见类型噪声图像;cluster-basedsampleselection:对深度特征空间进行聚类,选择合适的簇作为目标样本,将其他簇作为噪声图像去除;基于分类的样本筛选:利用分类器返回的置信度来评估样本与对应类别的相关性,进一步筛选样本。详细介绍图像去重和常见噪声图像过滤。候选样本集中有很多重复图像或非常相似的图像,可以采用不同的方式去重:提取图像的直方图特征向量,利用特征向量之间的相似度进行去重;或者建立哈希表,提取图像的简单颜色和纹理特征,对特征进行量化后,利用哈希表进行特征查询。可以查询的是重复的或者非常相似的图片,不能查询的则添加到表中。前一种方法对于小的差异表现更好,而后一种方法具有明显的计算性能优势。待选取的样本集往往包含一些常见的噪声图像模式,如人脸、纸箱包装、发票、聊天记录图像、产品或商店标志图像等,所占比例较高。对于这些常见的噪声图像,首先提取它们的HOG特征,并用预训练的SVM分类器对其进行分类。为了保证准确率,针对不同类型的噪声图像,分别训练1vN个SVM分类器,只要图像被识别为任何类型的噪声图像,都会被筛选掉。以上两步只利用了图像的简单特征,只能去除样本集中重复的图像和常见的噪声图像。对于更复杂的噪声图像模式,需要使用更有效的图像特征,对于复杂类别使用无监督聚合。类去挖掘。基于聚类的样本选择要利用图像本身丰富的信息对其进行聚类,首先需要提取更丰富的图像特征。因此,可以利用深度网络模型提取图像特征,得到的特征融合了常见的图像基本特征,包含高阶图像语义信息,具有更强的表达能力。这里使用在Imagenet数据集上训练的网络模型,利用已有的样本集进行fine-tune,从而增强模型对特定类别的表达能力。这里,对于一个图像样本,通过深度网络得到的特征是一个1024维的向量,通过PCA进一步降维为256维的特征向量。这样,图像样本集就构成了一个特征数据空间。接下来,在降维后的特征数据空间中使用基于密度的聚类算法进行聚类。该算法最突出的特点是一种新颖的聚类中心选择方法,其标准可以描述为:聚类中心附近的点密度非常大,并且其密度大于其任何一个邻居的密度;clustercenter和point密度大于它的数据点,它们的距离比较大。选择合适的聚类中心后,将每个数据点分类到距离最近的聚类中,并根据每个点到相应聚类中心的距离,将它们分为核心数据点和边缘数据点。该聚类算法思路简单,效率高,对不同场景具有较好的鲁棒性。在得到的聚类结果中,进一步选择密度较高、半径更紧凑的簇,将其中的样本作为待选的目标样本数据,同时筛选出其他簇对应的样本作为噪声样本。基于分类的样本筛选上述聚类得到的目标样本中可能含有少量无关样本,需要进一步筛选。这里利用分类器的置信度来评价样本的类别相关性,可以进一步剔除与类别无关或弱相关的样本。具体方法是从目标样本中随机选取若干个可以替换的样本,将其标记为新的类别作为新的训练样本,对现有的卷积神经网络模型进行微调。这个卷积神经网络模型和前面特征提取的网络模型肯定有一定区别(模型结构和训练数据不同)。使用这个新模型,识别目标样本并获得其类别置信度。如果一个样本对其所属类别的置信度很低,则该样本将作为无关样本被筛选掉。经过以上筛选,最终的目标样本经过简单的人工验证,即可作为高质量的样本集进行训练和测试。应用效果通过对网络获取的几万类近500万张样本图片进行处理,并对算法的筛选结果进行人工验证。最终目标样本整体类别相关性达到95%,其中,对于比较热门的类别,样本相关性可达99%以上,总效率比人工筛选提高100倍以上。图3左侧为筛选出的目标样本,右侧为筛选出的噪声图像。图3样本图片筛选结果示例苏宁“智能视觉图集”是一个综合性的图像视频相关算法平台,旨在为公司内外的相关业务场景提供应用算法服务。目前提供的算法接口包括商品识别、人脸特征分析与人脸验证、标识检测、敏感图分析、广告敏感词分析、图片抠图等,分别涉及商品内容识别、人脸识别、目标检测、敏感领域图像识别、OCR算法、图像分割抠图等算法,平台支持的算法服务还在不断增加,现有算法的效果和性能也在不断优化,以满足各种实际应用场景的需求。许多与识别相关的算法业务都需要使用足够的样本数据来训练高精度分类器。上述技术方案已广泛应用于商品图像识别、敏感图像识别、Logo识别等应用算法的样本筛选工作,极大地提高了开发效率,节省了人力成本,为高效算法模型提供了训练。可靠的数据保护。以商品图像识别算法为例,利用上述样本采集和过滤方法,获取不同的真实图像样本,以ResNet模型为框架,训练出高精度的商品识别模型,构建面向对象的图像检索系统所有类别的产品,广泛应用于产品类别识别、基于外观的产品推荐、产品图像检索、基于外观相似度的产品匹配等实际业务场景。小结在企业级深度学习图像应用中,大量高质量图像样本的获取是算法性能优异的重要前提。在工程实践中,在图像样本严重不足的情况下,只有对样本进行数据增强,才能在测试集上提高几个百分点的效果。如果能加入丰富真实的样本数据,相应类别的识别率将得到提升。更直接,泛化性能非常好,经得起各种实际场景的考验。因此,样本工程(图像样本的获取和选择)是一项不容忽视的重要工作,需要长期开展。然而,“爬图容易,挑图难”,即使积累了大量的样本数据,也常常因缺乏有效的处理方法和标注的人力而陷入数据困境。本文主要介绍我们在这个问题上的实践方案。结果表明,通过使用多种过滤方法,充分利用初级特征和深层特征等特征表达,以及无监督聚类和深度分类器等分类方法,可以有效地从各种网络图像中提取高质量的目标样本。此外,我们在深度学习领域也看到了新的研究成果。其中,无监督深度学习更符合人类的认知习惯,对样本质量没有那么严格的要求。该领域理论和技术的快速发展深度学习在企业中的应用,将意味着更加光明的未来。主要参考文献:1.Clusteringbyfastsearchandfindofdensitypeaks,Science,2014,344(6191):1492-6,AlexRodriguezandAlessandroLaio,.2.从互联网中提取视觉知识,YYao,JZhang,XSHua,FShen,ZTang.3.深入卷积[J].arXiv预印本arXiv:1409.4842,2014,SzegedyC,LiuW,JiaY,etal.4。DeepResidualLearningforImageRecognition,ComputerVisionandPatternRecognition,2015:770-778,KHe,XZhang,SRen,JSun.