室内环境中的自监督深度估计总是比室外环境更具挑战性。OPPO提出了一种新颖的单目自监督深度估计模型:MonoIndoor,通过深度分解模块和残差姿态估计模块提高了室内环境下自监督单目深度估计的性能。目前,该成果已被ICCV2021录用。ICCV是计算机视觉方向三大顶级会议之一,今年论文录用率为25.9%。从单个图像估计深度信息是计算机视觉中一个经典且具有挑战性的问题。由于单目图像的尺度不确定,传统方法无法计算深度值。随着深度学习技术的发展,这种范式已经成为一种估计单目图像深度信息的解决方案。早期的深度估计方法大多是有监督的,即要求数据集包含单目图像和相应的深度真值支持网络模型训练。要让图像包含真正的深度值是非常困难的,一般需要精密的深度测量设备和移动平台“捕捉”。因此,高昂的成本导致数据集中的数据量很小,这也意味着监督学习的深度估计方法并不适用于大规模的工业场景。近日,OPPO提出了一种新颖的单目自监督深度估计模型:MonoIndoor。该方法在训练深度网络时可以仅使用图像本身作为监督信息,不需要图像的显式目标深度值。在降低对训练数据集要求的同时,提高了深度估计的适应性和鲁棒性。目前,该成果已被ICCV2021录用,相关技术已申请专利。论文地址:https://arxiv.org/pdf/2107.12429.pdf具体来说,本文研究了三个公共数据集上更具挑战性和复杂的室内场景的自监督深度估计:EuRoC、NYUv2、7-Scenes上进行测试时,其性能优于Monodepth2等方法,实现了自监督深度估计领域的最佳性能。如何实现室内场景深度估计?尽管关于自监督深度估计的研究很多,其性能已经与监督方法相媲美,但是这些自监督方法的性能评估要么只在室外进行,要么在室内表现不佳。究其原因,OPPO研究院的研究人员认为,与室外场景相比,室内场景通常缺乏显着的局部或全局视觉特征。具体来说:1.室内场景的景深变化剧烈,神经网络很难推断出一致的深度线索。2.在室内场景中,相机运动通常包含大量的旋转,这给相机位姿网络带来了困难。基于以上观察,研究人员提出了两个新的模块来尝试解决以上两个难点。其中,深度分解模块(DepthFactorization)旨在克服景深剧烈变化带来的困难;残差姿态估计模块(ResidualPoseEstimation)可以改进室内场景中相机旋转的估计,从而提高深度质量。图注:MonoIndoor模型架构概述模型的工作原理如上图所示。深度因子分解模块使用编解码器的深度网络来估计相对深度图,使用非局部尺度网络(non-localscalenetwork)来估计全局尺度因子。(全局比例因子);残差位姿估计模块使用位姿网络估计一对帧的初始相机位姿,然后使用残差位姿网络在初始位姿的基础上迭代估计残差相机位姿。模型架构的深度分解模块深度分解模块的骨干模型是Monodepth2,其自动掩蔽机制可以忽略单眼训练中相对于相机静止的那些像素;同时,它使用多尺度光度一致性损失对输入分辨率进行所有图像采样,减少深度伪影。在Monodepth2的基础上,研究人员提出了自注意力引导的尺度回归网络(self-attention-guidedscaleregressionnetwork)来估计当前视点的全局尺度因子。尺度网络是深度分解模块的另一个分支,它以彩色图像为输入,以全局尺度因子为输出。由于全局尺度因子与图像的局部区域密切相关,因此研究人员在网络中加入了self-attentionblock,以引导网络更多地“关注”信息丰富的区域,从而推导出深度因子。公式如下,给定图像特征输入,输出为Query,key(键),value(值)。此外,为了稳定全局尺度因子的估计,研究人员还在网络中加入了概率尺度回归头(ProbabilisticSc??aleRegressionHead)。公式如下,全局尺度是各个尺度的加权概率之和:模型架构的残差姿态估计模块与现有方法侧重于在数据预处理过程中“去除”或“减少”旋转分量不同,残差OPPO研究人员提出的姿态估计模块可以迭代学习目标图像和源图像之间的相对相机姿态。图例:将一个姿态估计分解为两个姿态估计的例子Step1:姿态网络以目标图像和源图像为输入,估计初始相机姿态。步骤2:使用上述公式从源图像中双线性采样以重建虚拟视图。第三步:利用残差位姿网络,将目标图像和合成视图作为输入,输出残差相机位姿。其中,残差相机位姿是指合成视图与目标图像之间的相机位姿。第四步,对合成图像进行双线性采样,公式如上↑。最后,在获得新的合成视图后,继续估计下一个残差位姿。此时,双线性采样公式的推广为↓:经过多次估计后,残差姿态可以动态写为↓:综上所述,通过迭代的方法估计残差姿态,可以获得更准确的相机姿态,和更好的深度估计。具体的实验结果在下一部分描述。性能评估为了说明模型MonoIndoor的效果,研究人员对三个权威数据集进行了评估:EuRoCMAV、NYUv2和RGBD7-Scenes。采用业界常用的单目深度估计量化指标:绝对相对差(AbsRel)、均方根误差(RMSE);和精度在三个常用阈值thr=1.25、1.25^2和1.25^3下。具体到实验配置上,研究者使用PyTorch实现模型,每个实验使用Adam优化器训练40个epoch,前20个epoch的学习率设置为10^-4,后面的10^-5其他20个;平滑项和一致性项分别设置为0.001和0.05。EuRoCMAV的实验结果比较了Monodepth2作为基线模型。结果如上表所示。深度分解模块可以将AbsRel从15.7%降低到14.9%;残差姿态估计模块可以将AbsRel降低到14.1%。整个模型在所有评估指标中都取得了最佳性能。从上图我们可以定性的发现MonoIndoor做的深度估计要比Monoepth2好很多。比如第一行,MonoIndoor可以估计出图片右下角“空洞区域”的准确深度,而Monoepth2显然不能。NYUv2MonoIndoor与最新的SOTA监督和自监督方法在实验结果上的性能对比结果如上表所示。在自监督方面,它可以在各项指标上做到最好,而且与有监督的方法相比,还可以“打败”一组,从而缩小了自监督和有监督方法之间的差距。上图可视化了深度估计对NYUv2的影响。与Monoepth2的结果相比,MonoIndoor的深度估计更接近真实情况。例如,在第一行第三列,MonoIndoor对椅子区域的深度估计更加准确。RGB-D7-Scenes的实验结果上表显示了MonoIndoor微调前后在RGB-D7-Scenes数据集上的测试结果。通过各个场景给出的指标,可以看出MonoIndoor更好。泛化能力和鲁棒性。例如,在“火灾”场景中,MonoIndoor将AbsRel降低了1.2%;在“Heads”场景中,MonoIndoor将AbsRel降低了1.8%。结语近年来,人工智能产品在各行业发展迅速,机器人、3D重建、物体跟踪等领域对深度估计技术的精度和效率要求越来越高。然而,目前主流的深度估计方法由于外部环境或成本等原因,往往难以在工程中应用和满足相关要求。另一方面,目前关于图像深度估计的研究较多,但可用的公共数据集相对较少,公共数据集中的场景相对不够丰富,极大地限制了深度估计算法的泛化能力。OPPO通过自研的无监督算法设计了适合室内场景的模型,可以在不依赖数据标注的情况下显着提升神经网络在室内场景的深度估计效果。这方面体现了OPPO对人工智能应用场景的理解,也体现了其对人工智能前沿学术问题的独特把握。
