当前位置: 首页 > 网络应用技术

[论文注释]深度感知的多网格深度统计估计与上下文correla

时间:2023-03-05 19:05:30 网络应用技术

  论文地址:https://arxiv.org/abs/2107.02524

  代码:https://github.com/nie-lang/multi-grid-deep-homography

  奇点估计是计算机视觉应用程序中的一项重要任务,例如图像缝合,视频稳定性和摄像头校准。传统的单冲程估计方法非常依赖相应的数量和分布,导致低纹理场景的稳健性差。相反,学习解决方案试图学习强大的深度功能,但在低重叠率的场景中表现出不令人满意的性能。在本文中,我们通过设计相关的上下文层(CCL)可以同时解决这两个问题。有效地捕获功能图中的远程相关性,并且可以在学习框架中灵活使用。考虑到单个单核细胞增多不能代表视觉中的复杂空间变化的复杂空间转换,我们建议我们建议预测从全球到局部预测的多晶体单核细胞增多症。此外,我们具有 - 深度感知能力k通过引入一种新颖的深层感知形状来保留损失。大量实验证明,我们的方法比合成基础数据集和现实世界数据集中最先进的解决方案更好。

  主要解决两个问题:

  基于深度学习的多种形式应力估计方法。

  主要通过两个模块解决:

  奇点估计是计算机视觉任务中非常重要的任务。它是图像缝合,视频稳定性和摄像头校准的重要组成部分。

  单个应力估计可以分为两种类型:基于数量的全局单冲程估计和多种形式应力估计:

  多形的压力估计也分为传统方法和深度学习方法:

  所提出的算法是基于学习的多元式深度深度解决方案,如图2所示。给出了参考图像$ i_r $和目标图像$ i_t $。我们的目标是返回到可以将目标图像扭曲以与参考图像保持一致的多晶状体单核细胞增多症。遵循先前的工作[16]和[17],我们将单个应力表示为四个顶点的八个运动,它可以表示为矩阵,大小为2×2×2。然后,u×v multi -Grid单肌肉可以表示为矩阵,大小为(u + 1)×(v + 1)×2。

  我们采用一系列具有共同权重的卷积池来提取不同规模的输入图像的深度特征($ f_r^k,f_t^k $,k = 1,2,...,n)。这些不同标准的堆栈形成特征性金字塔。LRE是从刻度L到刻度N.NEXT的多尺度特征,我们使用特征金字塔的顶部(L = 1,2,3)来预测从集成多 -在我们的设计中,L-1层中(L-1)层的可预测性是当前层上的已知优先级信息,并预测了残差单响应。特别是,前两个金字塔层预测了全局单一的单一响应响应,虽然第三个金字塔层预测u×v multi -grid单个-stroke.in,但我们预测,从全局到部分多grid单个响应,使我们的网络能够与视觉处理图像。

  现有的深度 - 非外侧应力解决方案在较低重叠的场景中无效,因为卷积层无法有效探索远程相关性。要解决此问题,Nie等人。[19]将成本引入网络以明确提高特征匹配能力。但是,成本的应用大大增加了空间和时间成本。为了减轻此问题,我们提出了CCL,这在图3中显示了。$ i_r,i_t $作为输入和输出密集特征流的功能图。我们将特征流定义为对应于垂直和水平运动特征的运动。

  与成本量相比,提议的模块具有以下优点:(1)它具有更高的深度单应力性能,(2)更快的速度,(3)由于记忆消耗较少而引起的记忆消耗较小,(4)(4)由于适当的Topatch-To在相关匹配中而不是点对点匹配中更稳定的补丁匹配。在第4.4节的实验中将证明前三个优点,最后一个优点将在第一个中解释步骤以下。

  接下来,我们介绍实施的三个步骤:

  1)相关量

  我们首先在频道维度上使用$ L_2 $模型,以通过多尺度功能(如图3所示)验证,例如$ f_r,f_t,in h^f imes w^f imes c^f $,然后提取它们之间的潜在相关性。

  价格[25]的价格[25]从$ f_r,f_t $提取全局相关性到$ h^f imes w^f imes的形状的形状(2H^f+1)(2W^f+1)3D卷,类似于字符串类似的字符串相关性如下:

  其中,$(x_r,y_r)$和$(x_t,y_t)$表示$ f_r,f_t $和c表示$ f_r^{x_r,y_r,y_r},f_t^{x__t,y_t,y_t} $的空间位置。本质

  与点之间的点 - 到 - 点相关的成本相比,我们计算了此步骤中k×k区域之间的斑块之间的斑块相关性。如图3所示,我们首先提取密集块(K×)k)从$ f_t $并设置为1.然后我们将这些块堆叠到卷积过滤器中,并使用它们在$ f_r $上执行卷积操作。我们请参阅卷积的卷,其形状为$ h^f imes w^f imes h^f w^f $。此卷中的每个值表示一对任何区域之间的相似性,可以表示为等效(2):

  其中,$ lfloor cdot 地板$代表了向下选择的操作。

  2)缩放软件

  相关中的每个位置都可以看作是$ h^f w^f $的向量。我们设置k = 3,并且该向量中的每个值在0到9之间。然后我们使用SoftMax函数来激活这些功能向量并将功能匹配转换为分类问题($ h^f w^f $类别)。通过这种方式,将相关转换为相关概率,如图3的右侧所示。在激活之前,将繁殖恒定的比例因子α(α> 1),以增加类的间距。

  将相关数量向量的每个位置表示为$ [x_1,x2,...,x {h^f w^f}] $,并假设$ x_1 le x2 le ... le x {h^f w^f} $。

  比较一级方程式和方程式4的分母,我们可以观察到,这种比例因素可以使$ p_k $低于$ p_k $(当k少于$ h^fw^f $),而与$ p_k一起使用的$ p_k最高概率为$更高(当k = $ h^fw^f $。换句话说,增强了相关相关的相关性。为了进一步验证此观点,图4可视化softmax之后相关音量中心的向量,无论如何关于是否存在两个维度的比例因素。可以看出,在没有比例因素的情况下,目标图像域中的许多区域(Col 3)与参考图像的中心点相似。因子(第4列)。

  3)特征流(功能流)

  在此步骤中,我们重新诠释了深度单笔估计的本质 - 目标图像的两个正交方向上的两项运动。基于这种理解,我们相信,如果我们从特征图中密集相关的特征运动中返回,,预测单个运动难度的困难将减少。因此,我们建议将相关数量转换为与强度特征运动相对应的特征流-Feature-级特征。

  集$ pk^{i,j} $代表位置(i,j,k)中相关量的spotmax,以激活相关的刻度softmax($ m {hor}^{i,j}运动(i,j)。,m_ {ver}^{i,j} $)可以计算如下:

  mod {,}表示模具的计算。

  最后,我们将特征从参考特征到目标特征($ h^f imes w^f imes 2 $)作为后续返回网络的输入。我们可视化图5中的特征流,其中中间特征每个金字塔层中的最终比对结果成对显示。

  此外,表中CCL的成本和复杂性之间的复杂性比较成本比较,CCL通过拒绝大多数未提示的位置来表达CCL,从而实现了更有效的预测。

  敏捷解决方案的现有深度是预测目标图像中4个最高点中的8个运动,而不是直接在解决方案中寻求8个未知参数。通过这8个动作,我们可以解决相应的单震动并将目标图像扭曲为与参考图像对齐,如图6(a)(b)所示。我们将此方向从目标图像域到参考图像域。(1×1)到达多机格里德变形(U×V),如图6(c)所示。扭曲目标的图像。换句话说,在多机格变形中,我们需要找出变形目标图像中的像素中的哪个网格。由于目标图像中的网格形状在前方方向变形后是不规则的,因此是不规则的难以快速使用和有效E在深度学习实现中以快速有效的方式获得每个网格与每个像素之间的相应关系的方法。因此,如果您继续使用正变形,则可以显着降低速度。

  为了避免此问题,我们设计了一个向后的变形解决方案。特别是如图6(d)所示,我们将常规网格放置在变形的目标图像中,然后预测从参考图像域到目标图像域的网格运动与正向变形相比,在后方方向变形中,扭曲的目标图像中的网格形状是规则的。因此,我们可以轻松地为每个像素批次的扭曲目标图像分配不同的单个响应,以实现在平行的加速度中GPU。

  敏捷网络的拟议多晶体深度以完全无监督的方式进行训练,因为现实世界中没有GT。项目用于对齐图像内容中的输入图像,并且形状保留项旨在防止网格形状的不自然变形。

  1)内容对齐损失

  给定参考图片$ i_r $和一个带重叠区域$ i_t $的目标图片。网络的目的是使重叠区域对齐。订单$ w^k(CDOT)$表示特征金字塔中预测网格的空间转换操作。

  其中,E表示所有1的矩阵

  本文提出的网络包含3层金字塔,因此内容对齐的内容如下:

  2)深度了解形状的损失

  仅使用内容对齐损失来优化网络将导致不自然的网格失真问题,例如自我交流。为了避免此问题,在[26,34]中提出了形状,这鼓励相邻的网格保持相似的形状。但是,该约束很容易从相邻的网格传播到周围的环境,并迫使所有网格保持相似的形状。该方法对同一平面上的所有网格表示,以减少内容对齐的成本,以改善形状规则。

  在本文中,我们重新诠释了这种形状以保持损失:理想损失只能对相同的深度网格施加保存约束,而不是对不同的深度网格的保护约束。保持损失的形状。它可以估计网格上的不同深度水平,并在相同的深度水平上限制网格以保持相似的形状。

  计算深度感知形状保持损失的过程如图7所示。首先,我们采用预训练的单眼深度估计模型[36]来预测目标图像的深度图。从我们的网络估计中扭曲深度图。获得扭曲的深度图后,我们计算扭曲的深度图的每个网格中的平均深度值。接头,我们将扭曲的深度图分为不同的水平。间隔($ d^k $,k = 1,2,...,m)。在图7(b)中可以看到深度水平,白色表示这些区域处于相同的深度。

  假设所有网格都处于相同的深度级别,我们可以使用相同的单笔扭曲它们来扭曲它们,并且变形网格中的每条线都是一条直线。基于此观察,我们与边缘边缘方向一致一个示例如图7(c)所示,在相同深度中的网格中,网格A和B之间的相似性可以表示如下:

  根据等效(8),我们可以计算转换的网格级别和垂直方向的相似矩阵($ l {sp}^{hor},l {spin {{ver} $),它们的大小为u x(v(v(v(v(v(v(v(v(v-1)和(v-)x)

  其中,$ d^k {hor},d^k {ver} $代表基于$ d^k $。计算的级别的深度一致性矩阵。IMES(v-))和d^k_ {ver}((v-)imes u)$表示相邻的网格(水平或垂直方向)是否处于相同的深度级别。

  3)目标功能

  同时,考虑内容和形状保留的内容,我们获得网络的目标函数:

  其中,$ lambda和Mu $分别代表了两次损失的重量。

  数据集。我们已经验证了两个公共数据集中提出的网络的性能。第一个是合成基本数据集,称为WARPED MS-COCO [16]。此数据集的示例是一个图像,没有一对差异对,因此单个应力可以将目标图像完美地与参考图像结合。第二个数据集是在无监督的深度图像缝线工作中提出的真实数据集[20],其中10,440张图像用于训练和训练和1,106张图像用于测试。此数据集称为UDIS-D,由不同的重叠速率,不同程度的视觉和可变场景组成,例如室内,室外,夜间,夜间,黑暗,雪和放大。

  实施细节。您的网络使用Adam [37]优化器进行培训。优化器具有索引衰减的学习率,其初始化为$ 10^{ - 4} $ 500K,迭代为500k。批次大小设置为4,我们首先将网络训练300k,其中λ和μ分别设置为1和0。对于剩余的200k迭代,我们将λ和μ设置为1和10和$ W_1,W_2,W_3 $和α指定为1、4、16和10。所有卷积层的激活函数。除了返回网络的最后一层外,不使用激活函数。实现基于张力量,并且网络是在具有NVIDIA RTX 2080 TI. ALCONIGNMENT的单个GPU上执行的。平衡512×512分辨率分辨率图像需要约96ms。

  由于扭曲的MS-Coco是一个没有视觉的合成数据集,因此我们仅将解决方案与其他单冲程解决方案进行比较。此外,为了公平,我们修改了返回网络的第三层金字塔,以预测单个单一的单个单一而不是多单面。为GT的可用性,我们通过监督训练网络。

  我们首先将方法与特征解决方案进行比较。如表II所示,我们选择了各种特征描述符,例如SIFT [9],ORB [10],Brisk [11]和Sosnet [12],并且不同的异常值拒绝。算法,例如RANSAC [13] ,,,,,, to Ransac [13] .Magsac [14],MagSac ++ [15]表格12个不同的解决方案。在这些功能描述符中,Sosnet使用SIFT的本地描述符来深入学习特征。

  然后,我们比较基于深度学习的解决方案,例如DHN [16],UDHN [17],CA-DHN [18],LB-DHN [19]和LB-udhn [20]。我们在此数据集中接受了培训。

  我们使用[17]和[20]的4分顺序作为评估上述所有解决方案的指标。(前30-60%)和硬(最高60-100%)。$ i_ {3x3} $使用3×3单位矩阵作为“扭曲”单个响应。

  结果显示在表2中,其中f表明解决方案的性能比$ i_ {3x3} $。从该表中观察到,很明显可以得出以下结论:

  (1)在所有情况下,我们的网络都比其他解决方案更好,包括传统和深度学习算法(“简单”,“媒介”和“难度”)。

  (2)深度学习解决方案更稳定,因为它们比“硬”列中的传统解决方案更好。这是由于CNN强大的功能提取功能所致。

  在实验中,我们没有将我们与[30]和[38]进行比较,因为它们本质上是模板算法。特别是,它们将使用大型参考图像和小型模板图像作为这些方法中的输入,以及输入之间的重叠率可以是100%。相反,这些比较方法和我们处理具有相对较低重叠率的输入的方法。

  定量比较

  在不同的摄像机基线下捕获了丰富深度级别的真实 - 级别图像,这表明由于差异差异,它们不能使用单个应力对齐。因此,在这个现实世界中的数据集(UDIS-D)中,我们已经与多单一的应力解决方案-APAP [2],AANAP [21],健壮ELA [31],SPW [32]和LCP [33]相比添加了比较。由于我们的网络中的网格为8×8(我们网络中8×8网格的原因将在第4.5节中解释),因此我们的网格和这些网格设置将设置为公平,可以比较8×8方法。为了进一步强调我们的性能,我们还将其与100×100的网格集进行了比较。

  此外,我们在UDIS-D中使用两种不同的分辨率进行了实验,如表3所示,在形式中,UDIS-D中图像的分辨率为512×512。我们将其调整为128×128以获得低分辨率版本。有两个原因:

  1)低分辨率图像可以模拟具有更少特征点的具有挑战性的场景。

  2)由于存在完整的连接层,大多数现有的深度学习解决方案只能在固定分辨率下(128×128)起作用。

  [20]之后,我们使用PSNR和SSIM评估重叠区域的性能,可以计算如下:

  定量比较

  在不同的摄像机基线下捕获了丰富深度级别的真实 - 级别图像,这表明由于差异差异,它们不能使用单个应力对齐。因此,在这个现实世界中的数据集(UDIS-D)中,我们已经与多单一的应力解决方案-APAP [2],AANAP [21],健壮ELA [31],SPW [32]和LCP [33]相比添加了比较。由于我们的网络中的网格为8×8(我们网络中8×8网格的原因将在第4.5节中解释),因此我们的网格和这些网格设置将设置为公平,可以比较8×8方法。为了进一步强调我们的性能,我们还将其与100×100的网格集进行了比较。

  此外,我们在UDIS-D中使用两种不同的分辨率进行了实验,如表3所示,在形式中,UDIS-D中图像的分辨率为512×512。我们将其调整为128×128以获得低分辨率版本。有两个原因:

  1)低分辨率图像可以模拟具有更少特征点的具有挑战性的场景。

  2)由于存在完整的连接层,大多数现有的深度学习解决方案只能在固定分辨率下(128×128)起作用。

  [20]之后,我们使用PSNR和SSIM评估重叠区域的性能,可以计算如下:

  强大的分析

  稳定的方法不一定需要良好的平均性能(请参阅表3的“平均”列),但最差的性能不能差(请参阅表3的“硬”列)。编程表3(a)和表3(b),高分辨率的传统解决方案的性能要好得多,因为随着分辨率的增加,特征点更丰富。

  但是,对于某些具有挑战性的场景,例如低光或低质地,分辨率改进并不能改善性能。图9显示了两个具有挑战性的例子。当场景中缺乏纹理或光线时,手动设计的特征描述符,例如由于SIFT(ORB)不适用,从而导致功能点更少或与相应的通信相匹配。

  交叉 - 数据验证

  对于大多数深度学习方法,概括是一个缺陷。在本节中,我们验证跨数据集的方法的概括。特别是,我们在UDIS-D中训练我们的网络并在其他数据集中进行测试。我们收集数据集从经典图像缝合论文[2],[39] - [42]。其中,这些数据集从不同的情况下捕获,并包括不同的视觉。结果如图10所示。在其他数据集上,我们的解决方案仍然具有良好的对齐能力。尤其是在这些示例中,图像之间的重叠率非常低,在这些情况下,大多数深度学习解决方案可能会失败。

  除了图像对齐性能外,我们还比较了CCL的成本和单侧估计字段。CCL和成本都是匹配与相应信息相对的匹配信息而无需学习参数的模块。它们可以轻松地插入神经网络中。

  首先,我们将CCL替换为网络成本。不过,此替代者将使网络参数数量急剧增加,超过GPU的最大记忆,导致培训崩溃。因此,我们设计了一个相对简单的网络作为基线,并将提出的CCL与框架上的成本进行了比较。基线体系结构如图11所示。在其中,使用8个共享参数卷积层和3个最大池层来提取深度功能。然后您可以使用。从不同输入图像中提取的特征图获取匹配信息的某种方法。具体地说,两个卷积层直接连接,过滤器的数量设置为256,将搜索半径设置为16,并且使用了建议的CCL在不同的实验中,我们使用了三个完整的连接层来预测目标图像中4个最高点的8个运动。

  该实验是在RTX NVIDIA 2080 Ti上的扭曲的MS-Coco上进行的。所有在监督中训练了80个时期的解决方案。如表IV所示,对性能,参数和速度的数量进行了全面评估。从该表中,我们可以观察到:

  (1)“扣除”的性能几乎等于$ i_ {3x3} $(18.5220,如表2所示)。如果功能图之间没有匹配的关系,那么互联网就什么都不能学。

  (2)“卷积”的性能几乎与“连接”的性能相同,这表明卷积层对匹配一无所知。有限的感觉可以解释这种现象。

  (3)成本确实有助于提取输入特征图之间的匹配关系,但效率不高。此外,参数和速度的成本也显着增加。

  (4)提议的CCL的性能远远远远优于成本量。此外,与“卷积”相比,该有效模块仅增加了0.32m。尺寸的模型,我们的设计已大大降低了来自数百MB至10 MB。

  实际上,模型大小的减小主要是由于特征流。该特征相关性的灯份体重表示(h×w×2)显着降低了随后的完整连接层的参数。广泛的冗余匹配信息,从而为奇点做出了更有效的预测。

  Context Realeration.CCL可以分为三个步骤,我们已将这些步骤捕获。我们在扭曲的MS-COCO上使用基线网络(如图11所示)来验证每个阶段的有效性,结果显示在表中。V.“特征流”可以将相关量转换为简单但有效的表示。“缩放软件”可以通过有效抑制低匹配概率点的特征流的干扰来进一步改善匹配性能。

  网格数量。网格数量的增加可以带来图像对齐的改进。但这不是绝对的,因为网络体系结构和数据集的大小可能会影响它。因此,我们探索了工作中最佳的网格。在我们的实验中,8×8网格是最好的。

  网格数量。网格数量的增加可以带来图像对齐的改进。但这不是绝对的,因为网络体系结构和数据集的大小可能会影响它。因此,我们探索了工作中最佳的网格。在我们的实验中,8×8网格是最好的。

  在本文中,我们提出了一个深入的深度深度 - 深度单眼估计网络,将图像从全局对齐到本地对齐,并突破了现有的单一深度单震动估计解决方案的限制。在我们的网络中,我们设计了CCL来有效提取匹配关系,并且在性能,参数和速度方面它们比成本好。此外,提出了对形状形状的深刻感知,以提高相同的规律性和对齐性能时间。大量实验证明了我们对现有的单笔和多种形式应力解决方案的优越性。

  但是,网格数量可能会受到网络体系结构和数据集大小的限制。未来,我们将探索影响网格数量并增加网格数量的最大限制而不降低对齐性能的原因。