简介:Gaode确保了及时通过其自身的图像源及时制作数据的现实世界。如果短时间间隔(小于一个月),同一位置的POI的变化非常低。
POI是兴趣点的缩写。在电子地图上,POI代表餐馆,超市,政府机构,旅游景点,交通设施等。POI数据中包含的信息可以通过电子地图符合其“查找目的地”,然后唤起导航服务的基本需求;对于电子地图,通过提供“接近搜索”,“审查”,“审查”,“审核”,等待操作可以改善用户的积极持续时间。此外,POI数据是基于位置服务行业的重要组成部分。
Gaode确保了现实世界中的每个新POI都是通过其自身的大量图像来源及时进行的。静止的时间间隔(少于一个月),同一位置的POI的可变变化非常低。如下图所示,只有“ Tang Huo Kung Fu” Poi是一个新列表。
图1.在同一位置的不同时间进行POI斑块比较
如果处理所有POI,它将带来高昂的运营成本。因此,有必要自动化不变的POI。关键的技术能力是图像匹配。该场景是典型的图像检索任务。
1技术定义
图像检索定义:给定的查询图像(查询),通过分析视觉内容在大图库中搜索相似的图像。该方向一直是计算机视觉领域的长期研究主题。它对行人重新认识,面部识别和视觉定位的任务进行了广泛的研究。图像检索的核心技术是衡量学习。目的是,在固定尺寸的特征空间中,约束模型关闭了相同的样本样本,并将不同类别的样本推开。,中心损失等由正面和负面样本定义和损失功能设计。为了优化不同任务的特征。强大的刚性约束和明显的关键特征(行人/面部关键点),因此它将将人体分割或关键点检测信息整合到模型特征提取中。
2个问题功能
POI斑块和学术主流检索任务的图像检索(例如行人重新识别)具有很大的差异,主要包括以下几点:异质数据,严重的封面和文本依赖性。
异质数据
行人重新识别任务也存在异质数据问题,但是此任务的异质性与不同的相机拍摄和不同的场景更为不同。在POI斑块检索场景中,存在更严重的异质数据问题,如下图:
图2.不同拍摄条件下的激进主义者图像
左侧的图片来自低质量的相机,正在向前射击。右侧的图片来自高质量的摄像头,它是侧射。因为相机拍摄的质量和拍摄的不同视角,这会导致亮度,形状,清晰度等。差异很大。以及如何在不同的差异化数据中实现POI斑块检索是一个非常具有挑战性的问题。
认真掩护
在道路场景中,通常会有干扰信息,例如树木和车辆,并且由于射击的观点,拍摄所拍摄的POI斑块经常面临严重的障碍物问题,如下图所示:
图3.烤肉一个严重的poi斑块示例
此外,封锁场景仍然不规则,这使得很难将两个斑块与良好的特征对齐,这给POI斑块搜索带来了巨大的挑战。
文字依赖
POI斑块的独特功能是依赖文本,主要依赖于POI名称文本。在下图中的场景中,两个斑块的整体布局和颜色非常相似,但是POI名称已更改。在这个场景中,我们希望这两个斑块将不匹配,它需要引入文本功能以增强特征的特征。但是,由于阻碍原因,文本特征是不同的,因此需要权衡图像特征。更重要的是,文本,文本特征和图像特征来自多种模式。如何集成多模式信息也是业务中的独特技术困难。
图4.只有文本更改的poi斑块示例
斑块搜索的技术解决方案主要包括数据迭代和模型优化。在数据生成的一部分中,我们分为两个步骤:冷启动自动生成数据和模型迭代生成数据。在模型优化部分,我们设计了一个多项式- 模式检索模型,包括两个部分:视觉分支和文本分支。正是考虑到牌匾的文本信息相对丰富,因此视觉信息与文本信息融合在一起。对于提取视觉信息特征,我们进一步设计了全球特征分支和本地特征分支,并分别进行了优化。总体技术框架如下图所示:
图5.总体技术解决方案
首先,使用传统的匹配算法筛分自动生成模型所需的训练数据,以完成模型的冷启动;在启动模型之后,会自动挖掘在线人员运营的结果并组织培训数据以优化迭代模型。多模式检索模型的设计基于三元组的三胞胎LOS的测量框架。输入包括:1)POI斑块的图像信息;2)POI斑块的文本信息。图像信息使用双分支进行特征提取,文本信息使用BERT进行特征提取,最后将文本功能与视觉特征集成在一起。
1个数据
为了训练检索模型,通常需要标记它,即POI斑块的标记粒度。在不同材料中筛选相同的POI斑块是非常复杂的工作。如果人为地标签,它将带来高标签成本,并且不能大规模标记。因此,我们已经设计了一组简单有效的培训数据来自动生成,可以用来启动模型冷,没有需要在整个链接中进行任何手动标签。
我们借用了传统特征点匹配算法的想法,并使用SIFT功能点匹配算法以匹配两个数据中的所有斑块,并通过内部点的数量(即匹配的斑块)筛选了匹配结果内点要大于阈值。制定相同的斑块。从基础上说,传统的特征点模式算法将存在泛化的概括问题。由此产生的训练数据可能会导致模型无法很好地学习,这反映在:1)训练样本更简单;将斑块分为多个类别;3)类别错误,即不同的斑块分为同一类别。因此,我们对此问题进行了相应的优化:1)采用多个数据匹配结果以增强同一类别中斑块的多样性;性别。
具体而言,对于样本的多样性,我们使用了多个数据的匹配结果来生成训练数据,因为不同材料中同一斑块中不同角度的拍摄结果多个。根据类别对策略进行采样,数据中的类别总数远大于批次大小,因此可以缓解类别冲突的问题。MDR损失基于三重态损失,这是一个新的测量框架基于不同距离间隔的正规化约束,从而将模型的模型减少到噪声样本。
图6. MDR丢失示意图与三重损失相比
图6是三胞胎损失和MDR损失的比较图。MDR损失希望正面样本和锚点之间的距离不会被拉到无限的位置,并且负样本不想将其推到无限的远处。类别误差噪声,不同的斑块被错误地分为同一类别。根据三胞胎损失的优化目标,该模型必须学习两者之间的距离。结果,最终效果很差。
2型
为了优化斑块搜索的效果,我们将视觉信息和文本信息组合在斑块中并设计多模型检索模型。在对视觉信息的响应中,我们优化了模型和局部特征的提取功能。要进行文本信息,我们使用BERT编码牌匾的OCR结果,将其用作辅助特征,并将学习与视觉特征合并。
全球特征
对于检索任务,从深度学习模型中提取的全球特征更健壮,它可以适应不同的场景,例如斑块视觉,颜色和光的变化。为了进一步增强全球特征的鲁棒性,我们主要是从其中优化的以下两个方面:1)采用注意机制来加强重要特征的注意力;2)改进互联网骨干,以关注更精细的粒度特征。
在我们的业务场景中,有类似外观和不同细节的斑块,如图8(c)所示。在这种情况下,我们希望该模型能够注意牌匾中的细粒度信息,例如中国斑块ChineSethe字体,版式或文本内容本身。注意机制可以帮助模型准确地注意更关键的部分可以在大量信息中区分不同的斑块。因此,我们引入了网络中的注意模块,以允许该模型学习关键信息以增强识别全球特征的能力。我们采用了空间群体的增强[4] [4],并且SGE通过在特征映射上的每个空间位置上产生一个注意因素来生成每个空间位置的特性的重要性。SGE模块如图7所示。它首先付给特征图,然后计算语义特征向量向量。每组特征图。以增强特性,以便在空间中获得更好的语义特征。
图7. SGE示意图,引入了空间注意机制
为了减少本地特征的损失,我们改进了网络主链并取消了Resnet网络最后一个块中的采样样本,因此最终功能映射包含更多本地信息。此外,我们使用GEM [3] boming层以取代最后一个全球平均池。GEM是一种可学习的功能聚合方法。全球最大池池和全球平均汇集是特殊情况。使用宝石池。它可以进一步增强全球特征。
本地特征
在优化了全球特征之后,现有模型仍在以下三个方面执行不足的性能:1)切割牙菌斑,学习的差,如图8(a)所示;2)斑块覆盖物引入了一些特征的特征的特征,这些特征是无关紧要的,即无关紧要的信息,如图8(b)所示;3)类似但不同的斑块很难区分,如图8(c)所示。因此,我们进一步设计了一个本地特征分支[1],以使模型更多地关注本地信息,例如该牌匾并使用全球特征进行牌匾搜索。
(A)
(b)
(C)
图8.需要局部特征优化的不同示例,(a)截断(b)阻塞(c)文本更改
为了提取局部特征,我们的主要思想是将斑块垂直分为几个部分,注意每个部分的局部特征[7],并优化局部特征。首先,垂直执行特征图以获取片段的局部特征图,然后计算两个图片的局部特征之间的相似性矩阵。其中,i,j分别代表了两个图中的I -I -1特征和J的J,而DIJ代表了两个图中的I -LE和J之间的欧洲风格的距离。
公式1.局部比对计算公式
图9. POI斑块本地对齐图
这样,在切割,阻塞和检测框的情况下,局部特征对准可以改善斑块的检索效果。
文本特征
poi斑块取决于文本,可能只会改变斑块名称的文本。我们设计的全局特征分支和本地特征分支可以在一定程度上学习文本特征,但是文本信息是相对较高的整体信息中的小信息和监督信号仅相似。良好的研究。因此,我们使用现有的文本OCR识别结果,并将BERT介绍给编码OCR结果以获取文本功能。此功能合并为辅助特征分支和视觉特征。融合功能用于最终斑块回曲。值得注意的是,当提取斑块的OCR结果时,为了减少单个框架中不准确识别结果的影响,我们使用了多帧OCR结果在信息中相同的斑块并剪接了获得的OCR结果。当使用BERT编码OCR结果特征时,区分OCR与不同帧的符号之间的符号。
3个模型效应
在新的技术解决方案下,POI斑块图像搜索取得了非常好的结果。准确性和召回率大于95%,这大大改善了在线指标,并且模型速度也有所提高。我们随机选择了一些匹配结果,如图10所示。
图10.评估集中式随机提取的POI斑块检索结果
在优化过程中,一些非常困难的情况正在逐渐解决,如下图11所示:
图11.评估浓度困难示例显示,(a)(b)(c)是优化之前的误差检索结果。
图(a),(b),(c)在优化之前显示不良情况(左侧的图片是查询图像,右侧的图片是rank1检索结果)。从坏情况中发现并不难找到。提取要求很高,因为这些情况通常以总体相似性,但本地特征不同。这些不良情况是我们设计的多模式检索模型的最初意图,并且还通过优化过程逐渐解决,如图(d),(e),(f)所示。我们通过优化全局特征和引入本地特征来使多模式检索模型提出该模型更多地关注斑块上更具可恶的本地特征,例如文本信息,文本字体,板类型,斑块纹理等,因此我们可以对具有相似外观的不同牌匾具有更好的区分能力,如图所示在图(a)和图(d)的效果中。加上其他因素,例如阻断不同透视斑,射击过程中不同的光强度以及差异的巨大颜色差异nt摄像机,一些斑块仅使用视觉特性来检索它。因此,我们通过辅助特征分支添加了OCR信息,从而进一步增强了特征的特征,因此可以考虑斑块搜索以全面考虑,以考虑考虑的视觉信息斑块和斑块中的文本信息。
图像检索是Gaode Map的自动化生产的尝试,该图已取得了良好的效果并已在实际业务中使用。但是,该模型并不完美,并且仍然有角落案例。为了解决这些案例,我们将来将从半佩维斯学习/主动学习自动补充数据中进行探索。
1个数据:基于半守规定的学习/主动学习的数据挖掘
数据非常重要,因为该模型很难完美,并且总会有角落案例,而解决角色案例的一种非常有效的方法是将数据添加到目标中。补充数据的关键是如何点击角落案例。以及如何自动标记它。这个方向也是当前的学术研究研究热点,即半学者学习和主动学习。半佩比西斯特学习使用经过培训的标签数据的模型来生产大众未播放数据的伪标签,并进一步优化了该模型混合标签数据和伪标签数据后,模型是使用由标签数据训练的模型来挖掘大量标签数据,并人为地标记了有价值的数据。是必须的。半普遍学习被模型本身完全标记。
2模型:基于变压器的特征提取和融合
Transformer目前是学术研究热点。大量工作已经证明了其在分类,检测,细分,跟踪和行人re -recognition.com等任务中的有效性。在功能提取中更好的特征能力。此外,变压器的输入更加灵活,可以轻松编码其他模块化信息并将模型与图像特征一起输入模型,因此它在多模型符号的融合中也具有很大的优势总而言之,变压器可以通过图像贴片的相关建模在封面/切断场景中求解POI斑块的匹配效果,并可以通过编码文本特征来实现多模式符号的融合。
本文的参考文献
[1]张X,Luo H,Fan X等。AlignedReid:在人身重新识别[J]中超过人类水平的表现。Arxiv预印型Arxiv:1711.08184,2017。[2] Kim,Yonghhn,Anghhn,Anghhn,Anghhn,Anghhn,Anghhn,Anghhn,Anghhn,Anghhn,Ananghhn,Ananghhn,Ananghhn,Ananghhn,Annano,Anan,Anan,Anan,2019年。
作者|Ling Cage,Huaizheng Source |阿里技术公共帐户