当前位置: 首页 > 科技观察

没有3D卷积的3D重建方法,A100上重建一帧仅需70ms

时间:2023-03-17 22:48:45 科技观察

没有3D卷积的3D重建方法,在A100曲面重建上重建一帧只需要70ms)。最近,一些研究提出了一系列直接在最终3D体积特征空间中进行重建的方法。虽然这些方法取得了令人印象深刻的重建结果,但它们依赖于昂贵的3D卷积层,限制了它们在资源受限环境中的应用。现在,来自Niantic和UCL等机构的研究人员尝试重用传统方法,专注于高质量的多视角深度预测,最终使用简单且现成的深度融合方法实现高精度3D重建。论文地址:https://nianticlabs.github.io/simplerecon/resources/SimpleRecon.pdfGitHub地址:https://github.com/nianticlabs/simplerecon论文主页:https://nianticlabs.github.io/simplerecon/The二维CNN是使用强大的图像先验以及平面扫描特征量和几何损失精心设计的。所提出的方法SimpleRecon在深度估计方面取得了显着领先的结果,并允许在线实时低内存重建。如下图所示,SimpleRecon的重建速度非常快,每帧仅需70ms左右。SimpleRecon与其他方法的对比结果如下:该方法的深度估计模型位于单目深度估计和平面扫描MVS的交叉点,研究人员使用代价量(costvolume)增加深度预测编码器——解码器架构,如图2所示。图像编码器从参考图像和源图像中提取匹配特征,以输入到成本量中。二维卷积编码器-解码器网络用于处理成本量的输出,研究人员还使用单独的预训练图像编码器提取的图像级特征对其进行扩充。这项研究的关键是将现有的元数据与典型的深度图像特征一起注入到成本量中,以允许网络访问有用的信息,例如几何和相关相机姿态信息。图3详细显示了特征量构造。通过结合这些以前未开发的信息,我们的模型能够在深度预测方面显着优于以前的方法,而无需昂贵的4D成本量、复杂的时间融合和高斯过程。该研究使用PyTorch实现,并使用EfficientNetV2S作为主干,具有类似于UNet++的解码器。此外,他们还使用ResNet18的前2个block进行匹配特征提取,优化器是AdamW。在两个40GBA100GPU上需要36个小时才能完成。网络架构设计该网络基于二维卷积编码器-解码器架构实现。在构建这样的网络时,研究发现有一些重要的设计选择可以显着提高深度预测精度,主要包括:系统性。相反,该研究使成本体积融合尽可能简单,并发现简单地将参考视图和每个源视图之间的点积匹配成本相加产生的结果与SOTA深度估计具有竞争力。图像编码器和特征匹配编码器:先前的研究表明,图像编码器对于深度估计很重要,无论是在单目估计还是多视图估计中。例如,DeepVideoMVS使用MnasNet作为图像编码器,具有相对较低的延迟。该研究提出使用体积小但功能更强大的EfficientNetv2S编码器,这大大提高了深度估计的准确性,但代价是参数大小增加和执行速度降低10%。Fusionofmulti-scaleimagefeaturestocostvolumeencoder:在基于2DCNN的深度立体和多视图立体中,图像特征通常与单一尺度的成本体积输出相结合。最近,DeepVideoMVS提出在多个尺度上拼接深度图像特征,在所有分辨率下添加图像编码器和成本体积编码器之间的跳过连接。这对基于LSTM的融合网络很有帮助,研究发现这对它们的架构同样重要。实验本研究在3D场景重建数据集ScanNetv2上训练和评估所提出的方法。下面的表1使用Eigen等人提出的指标评估了几种网络模型的深度预测性能。(2014)。令人惊讶的是,在不使用3D卷积的情况下,所提出的模型在深度预测指标上优于所有基线模型。此外,没有元数据编码的基线模型也比以前的方法表现更好,这表明精心设计和训练的2D网络足以进行高质量的深度估计。下面的图4和图5显示了深度和法线的定性结果。本研究使用TransformerFusion建立的标准协议进行3D重建评估,结果如下表2所示。对于在线和交互式3D重建应用程序,减少传感器延迟至关重要。下面的表3显示了在给定新RGB帧的情况下每个模型每帧的综合计算时间。为了验证本研究提出的方法中各个组件的有效性,研究人员进行了消融实验,结果如下表4所示。感兴趣的读者可以阅读论文原文了解更多研究细节。