当前位置: 首页 > 科技观察

图像检索在高德地图POI数据制作中的应用

时间:2023-03-17 21:54:08 科技观察

-背景POI是PointofInterest的简称。在电子地图上,POI代表了饭店、超市、政府机构、旅游景点、交通设施等,POI是电子地图的核心数据。对于普通用户来说,POI数据中包含的姓名和位置信息,可以满足使用电子地图“寻找目的地”的基本需求,进而唤起导航服务;对于电子地图,通过提供“附近搜索”、“评论”等操作,可以增加用户的活跃时间。此外,POI数据是连接线上线下连接和交互的纽带,是基于位置的服务(LocationBasedService)行业的重要组成部分。高德利用自身的海量图像源,保证现实世界中每一个新增的POI都能及时转化为数据。在较短的时间间隔内(不到一个月),同一地点的POI变化非常低。如下图,只有“汤火功夫”POI是新上市的。图1.同一地点不同时间的POI斑块对比。如果对所有的POI都进行处理,会带来很高的运营成本。因此,需要自动过滤未发生变化的POI。关键技术能力是图像匹配。场景是典型的图像检索任务。1技术定义图像检索问题定义:给定一张查询图像(Query),通过分析视觉内容在大型图像库(Gallery)中搜索相似图像。该方向一直是计算机视觉领域的长期研究课题,在行人重识别、人脸识别、视觉定位等任务中得到广泛研究。图像检索的核心技术是度量学习,其目标是在一个固定维度的特征空间中,利用约束模型使同一类别的样本靠得更近,不同类别的样本靠得更远。在深度学习时代,主要有几种经典结构,包括:contractiveloss、tripletloss、centerloss等,都是在正负样本定义和损失函数设计上优化的。此外,图像检索的一个基本要素是特征提取,通常包括:全局特征、局部特征、辅助特征等,主要针对不同的任务特征进行优化,例如:行人重识别和人脸识别。刚性约束强,且具有明显的关键特征(行人/人脸关键点),因此将人体分割或关键点检测信息融合到模型特征提取中。2问题特征POI牌匾的图像检索与主流学术检索任务(如行人重识别)有较大区别,主要包括以下几点:异构数据、严重遮挡、文本依赖。异构数据行人重识别的任务也存在数据异构的问题,但这个任务的异构更多是由于不同相机和不同场景的差异。在POI斑块检索场景中,存在较为严重的异构数据问题,如下图所示:图2.不同拍摄条件下的异构图像。左图来自低质量相机,向前拍摄;右边的图像来自高质量的高质量相机,并且是侧面拍摄的;由于相机的拍摄质量和拍摄角度不同,导致POI斑块的亮度、形状和清晰度差异很大。如何在差异较大的异构数据中实现POI斑块检索是一个非常具有挑战性的问题。遮挡严重道路场景中,经常有树木、车辆等干扰信息,由于拍摄角度的原因,抓拍到的POI斑块往往面临严重的遮挡问题,如下图所示:图3.严重遮挡的示例POI斑块和遮挡场景仍然是不规则的,这使得两个斑块的特征很难更好地对齐,这给POI斑块检索带来了很大的挑战。文本依赖POI牌匾的另一个独特之处在于它们对文本的依赖性很强,主要是对POI名称文本的依赖。下图中,两个牌匾的整体布局和颜色非常相似,只是POI的名称发生了变化。在这种场景下,我们希望两个牌匾不匹配,这就需要引入文本特征来增强特征区分。但是由于遮挡,文本特征也会有所不同,所以需要结合图像特征进行权衡。而且文本特征和图像特征来自多种模态,如何融合多模态信息也是该业务独有的技术难点。图4.仅更改文本的POI牌匾示例2。技术方案斑块检索技术方案主要包括数据迭代和模型优化两部分。在数据生成部分,我们分为冷启动自动数据生成和模型迭代数据生成两个步骤。在模型优化部分,我们设计了一个多模态检索模型,包括视觉分支和文本分支两部分,主要考虑到牌匾具有丰富的文本信息,因此融合了视觉信息和文本信息。针对视觉信息特征的提取,我们进一步设计了全局特征分支和局部特征分支,并分别进行了优化。整体技术框架如下图所示:图5.整体技术方案首先采用传统的匹配算法Sift自动生成模型所需的训练数据,完成模型的冷启动;挖掘和组织训练数据以进行迭代模型优化。基于三元组损失(TripletLoss)度量学习框架设计多模态检索模型,输入包括:1)POI斑块的图像信息;2)POI牌匾的文字信息。图像信息使用双分支进行特征提取,文本信息使用BERT进行特征提取,最后融合文本特征和视觉特征。1数据用于训练检索模型,通常需要在实例级别进行标注,即按照POI斑块的粒度进行标注。然而,从不同材料中筛选出相同的POI牌匾是一项非常复杂的工作。如果进行人工标注,会带来较高的标注成本,且无法大规模标注。因此,我们设计了一种简单高效的自动生成训练数据的方式,可用于模型冷启动,全程无需任何人工标注。我们借鉴传统特征点匹配算法的思想,使用Sift特征点匹配算法对两个数据中的所有斑块进行两两匹配,通过inliers个数筛选匹配结果,即匹配到的斑块与大于阈值的inliers的数量制作相同的斑块。一般来说,传统的特征点匹配算法存在泛化能力不足的问题,由此产生的训练数据可能会导致模型学习不好,具体体现在:1)训练样本比较简单;2)类别冲突,即同一个Plaques被分到多个类别;3)类别错误,即将不同的斑块归为同一类别。因此,我们对这个问题进行了相应的优化:1)利用多个数据匹配结果来增加同一类别下斑块的多样性;2)使用Batchsamplingstrategy和MDRloss[2]来降低模型对错误标记数据性的敏感度。具体来说,针对样本多样性的问题,我们使用多个数据的匹配结果来生成训练数据,因为同一个牌匾在不同的材料上有多个不同角度的拍摄结果,保证了同一类别下牌匾的准确性。多样性避免了自动生成的样本都是简单样本的问题。batch采样策略是按类别采样,数据中的类别总数远大于batchsize,因此可以缓解类别冲突的问题。MDRloss是在Tripletloss的基础上设计的一种新的度量学习框架,针对基于不同距离区间的正则化约束,从而减少模型对噪声样本的过拟合。图6.MDR损失示意图。与Tripletloss相比,增加了距离正则化约束。图6是Tripletloss和MDRloss的对比示意图。MDRloss希望正样本和anchor的距离不被拉到无限远,负样本不被推到无限远。在类别错误噪声样本的情况下,不同的斑块被错误分类到同一类别中。根据Tripletloss的优化目标,模型会被强制学习两者之间的距离无限接近。在这种情况下,模型将过度拟合噪声样本,从而导致较差的最终结果。2模型为了优化斑块检索效果,我们整合了斑块中的视觉信息和文本信息,设计了多模态检索模型。对于视觉信息,我们优化了模型提取全局特征和局部特征的能力。对于文本信息,我们使用BERT将斑块的OCR结果编码为辅助特征,与视觉特征融合后进行度量学习。全局特征通常对于检索任务,使用深度学习模型提取的全局特征更加稳健,能够适应斑块视角、颜色、光照变化等不同场景。为了进一步提高全局特征的鲁棒性,我们主要优化了以下两个方面:1)使用Attention机制加强对重要特征的关注;2)改进网络主干以专注于更细粒度的特征。在我们的业务场景中,有一些牌匾外观相似,但在细节上存在差异,如图8(c)所示。在这种情况下,我们希望模型能够关注斑块中的细粒度信息,比如斑块中字的字体、文本的布局,或者文本本身的内容。注意力机制可以帮助模型在大量信息中准确地聚焦到能够区分不同斑块的更关键的部分。因此,我们在网络中引入注意力模块,让模型学习关键信息,提高全局特征的判别能力。我们采用空间注意力机制SGE(SpatialGroup-wiseEnhance)[4],SGE通过为特征图上的每个空间位置生成一个注意力因子来调整每个空间位置特征的重要性。SGE模块如图7所示,首先对featuremaps进行分组,然后计算每组featuremaps的语义特征向量,利用语义特征向量和featuremap进行position-wise点乘,得到attentionmap,然后在attentionmap和featuremap上进行position-wisepoints的乘法,以增强特征,从而获得语义特征更好的空间分布。图7.SGE示意图,引入空间注意力机制。为了减少局部特征的损失,我们改进了网络主干,取消了ResNet网络最后一个块的下采样,使得最终的featuremap包含更多的局部特征。信息。此外,我们使用GeM[3]池化层来替换最后的全局平均池化。GeM是一种可学习的特征聚合方法。globalmaxpooling和globalaveragepooling都是它的特例。使用GeMpooling优化可以进一步提高全局特征的鲁棒性。在针对全局特征优化局部特征后,现有模型在以下三个方面仍然表现不佳:1)在斑块截断的情况下,特征学习质量较差,如图8(a)所示;2)对于被遮挡的斑块,该特征引入了一些不相关的上下文信息,如图8(b)所示;3)相似但不同的斑块难以区分,如图8(c)所示。因此,我们进一步设计了局部特征分支[1],使模型更加关注斑块的几何形状、纹理等局部信息,与全局特征一起进行斑块检索。图8.局部特征优化的不同例子,(a)截断(b)遮挡(c)文本变化对于局部特征的提取,我们的主要思路是将斑块垂直分成几个部分,分别关注每个部分局部特征[7],对对齐后的局部特征进行优化。对齐操作如下图9所示。首先对特征图进行垂直池化得到块的局部特征图,然后计算两幅图像局部特征之间的相似度矩阵,然后根据公式1求出两幅图像之间的最短距离。Alignment,其中i,j分别表示两幅图像中第i个块特征和第j个块特征,dij表示两幅图像中第i个块和第j个块特征之间的欧氏距离.图9.POI斑块局部对齐示意图。通过这种方式对齐局部特征,可以大大提高斑块在截断、遮挡、检测框不准确等情况下的检索效果。文字特征POI牌匾对文字有很强的依赖性,可能会出现只有牌匾名称文字发生变化的场景。我们设计的全局特征分支和局部特征分支可以在一定程度上学习文本特征,但是文本信息占整体信息的比例很小,监督信号只是两张图片是否相似,导致文本功能没有被很好地使用。很好学。因此,我们利用已有的文本OCR识别结果,引入BERT对OCR结果进行编码,得到文本特征。该特征作为辅助特征分支与视觉特征融合。融合的特征用于最终的斑块检索度量学习。值得注意的是,在提取斑块的OCR结果时,为了减少单帧内识别结果不准确的影响,我们在单个数据中使用了同一斑块的多帧OCR结果,并将得到的拼接OCR结果,当使用BERT对OCR结果特征进行编码时,插入符号用于区分来自不同帧的OCR结果。3模型效果在新的技术方案下,POI斑块图像检索取得了很好的效果,准确率和召回率均大于95%,大大提高了在线指标,模型速度也有了很大的提升。我们随机选择了一些匹配结果,如图10所示。图10.从评估集中随机选择的POI斑块检索结果。在优化过程中,一些非常难的case正在逐渐被解决,如下图11所示:图11.评估集中difficultcases的展示,(a)(b))(c)是优化前错误的搜索结果,(d)(e)(f)为优化后的搜索结果。图(a)、(b)和(c)分别为优化前的Badcase(左图为查询图像,右图为Rank1检索结果)。从Badcase不难发现,斑块检索对细粒度特征提取的要求非常高,因为这些case一般都是整体相似,局部特征不同。这些badcases是我们设计多模态检索模型的初衷,在优化过程中逐步解决,如图(d)、(e)、(f)所示。我们提出的多模态检索模型,通过优化全局特征和引入局部特征对齐,使模型更加关注斑块上更具辨识度的局部特征,如文字信息、文字字体、车牌类型、斑块纹理等。因此,我们的模型具有更好的区分具有相似外观的不同斑块的能力,如图(a)和图(d)所示。此外,由于不同视角的斑块遮挡、拍摄时的光照强度不同、不同相机之间的色差较大等因素,一些斑块仅靠视觉特征很难检索到。因此,我们通过辅助特征分支加入OCR信息,进一步增强特征的鲁棒性,使得牙菌斑检索可以综合考虑牙菌斑的视觉信息和牙菌斑中的文字信息进行检索,如图(b))和图(e)效果比较。三、未来发展与挑战图像检索是高德地图数据自动化生产的一次尝试。取得了良好的效果,并已在实际业务中使用。但是,模型并不完美,仍然会存在cornercase。为了解决这些情况,我们未来会讨论从半监督学习/主动学习到自动补充数据,并引入Transformer[9,10]来优化特征提取和融合。.1数据:基于半监督学习/主动学习的数据挖掘数据非常重要,因为模型很难完美,总会有cornercases,解决cornercases的一个非常有效的手段就是针对性补充数据。补充数据的关键是如何挖掘cornercases以及如何自动标注它们。这个方向也是当前学术研究的热点,即半监督学习和主动学习。半监督学习是利用标记数据训练的模型为海量未标记数据生成伪标签,然后将标记数据和伪标记数据混合后对模型进行优化。主动学习是利用标记数据训练的模型对海量未标记数据进行数据挖掘,并对挖掘出的有价值数据进行人工标注。两者的区别在于是否需要一些人工标注。半监督学习完全由模型自身生成,但可能导致模型效果有上限,而主动学习可以在一定程度上提高上限,因此两者结合需要深入研究以后,以便更好的补充训练数据,解决Cornercase。2模型:基于Transformer的特征提取与融合Transformer是当前学术研究的热点,大量工作证明了其在分类、检测、分割、跟踪、行人再识别等任务中的有效性。与CNN相比,Transformer具有全局感受野和高阶关联建模的特点,使其在特征提取方面具有更好的表示能力。此外,Transformer的输入相对灵活,其他模态信息可以很容易地编码后与图像特征一起输入到模型中,因此在多模态特征融合方面也具有很大的优势。综上所述,Transformer可以通过对图像块的相关性建模来解决POI斑块在遮挡/截断场景下的匹配效果,并可以通过对文本特征进行编码来实现多模态特征的融合。本文参考文献[1]ZhangX,LuoH,FanX,etal.Alignedreid:在行人再识别中超越人类水平的表现[J]。arXiv预印本arXiv:1711.08184,2017.[2]Kim、Yonghyun和WonpyoPark。“深度度量学习的多级距离正则化。”arXiv预印本arXiv:2102.04223,2021.[3]Radenovi?F,ToliasG,ChumO.无需人工注释的微调CNN图像检索[J]。IEEEtransactionsonpatternanalysisandmachineintelligence,2018,41(7):1655-1668.[4]LiX,HuX,YangJ.Spatialgroup-wiseenhance:Improvingsemanticfeaturelearninginconvolutionalnetworks[J].arXiv预印本arXiv:1905.09646,2019。