三维重建(3DReconstruction)技术一直是计算机图形学和计算机视觉领域的重点研究方向。简单来说,3D重建就是在2D图像的基础上,还原3D场景结构。据说,林志颖出车祸后,他的面部重建方案采用了3D重建。3D重建的不同技术路线有望融合。事实上,3D重建技术已经广泛应用于游戏、电影、测绘、定位、导航、自动驾驶、VR/AR、工业制造和消费品等领域。随着GPU和分布式计算的发展,以及微软的Kinect、华硕的XTion、英特尔的RealSense等深度相机在硬件方面的成熟,3D重建的成本呈现下降趋势。在操作上,3D重建的过程大致可以分为五个步骤。第一步是图像采集。由于3D重建是相机的逆运算,因此首先需要使用相机获取3D物体的2D图像。这一步不能忽略,因为光照条件、相机的几何特性等对后续的图像处理都有很大的影响。第二步是相机标定。这一步是利用摄像头拍摄的图像来还原空间中的物体。通常假设相机拍摄的图像与三维空间中的物体之间存在线性关系,求解线性关系参数的过程称为相机标定。第三步是特征提取。特征主要包括特征点、特征线和区域。在大多数情况下,特征点被用作匹配基元,特征点提取的形式与所使用的匹配策略密切相关。因此,在提取特征点时需要确定使用哪种匹配方法。第四步是立体匹配。立体匹配是指根据提取的特征建立图像对之间的对应关系,即两幅不同图像中同一物理空间点的成像点之间一一对应。第五步是3D重建。有了更准确的匹配结果,结合相机标定的内外参数,就可以恢复出3D场景信息。这五个步骤是环环相扣的。只有每个环节都做到精度高、误差小,才能设计出更加精准的立体视觉系统。就算法而言,3D重建大致可以分为两类。一种是基于传统多视几何的3D重建算法。另一种是基于深度学习的3D重建算法。目前,由于CNN在图像特征匹配方面的巨大优势,越来越多的研究者将目光投向了基于深度学习的3D重建。但是,这种方法多为监督学习方法,对数据集的依赖性很强。数据集的收集和标记一直是监督学习中问题的根源。因此,基于深度学习的3D重建大多是在较小物体的重建方向上研究的。此外,基于深度学习的3D重建虽然保真度高,但在准确率方面有更好的表现。但训练模型需要花费大量时间,而且用于3D重建的3D卷积层非常昂贵。因此,一些研究人员开始重新审视传统的3D重建方法。传统的3D重建方法虽然在性能上存在不足,但技术相对成熟。那么,将这两种方法进行某种融合可能会有更好的效果。无3D卷积层的3D重建伦敦大学、牛津大学、谷歌、Niantic(从谷歌分拆出来的研究AR的独角兽公司)等机构的研究人员探索了无3D卷积的3D重建。重建方法。他们提出了一个简单的最先进的多视图深度估计器。这个多视图深度估计器有两个突破。一种是设计良好的2DCNN,可以利用强大的图像先验,可以得到平面扫描特征量和几何损失;第二个是将关键帧和几何元数据集成到成本卷中以实现知情深度平面评分的能力。据研究人员称,他们的方法在深度估计方面明显领先于当前最先进的方法。并且它在3D重建方面接近或优于ScanNet和7-Scenes,但仍然允许在线实时低内存重建。此外,重建速度非常快,每帧仅需73毫秒。据研究人员称,这可以通过快速深度融合实现精确重建。据研究人员介绍,他们的方法是使用图像编码器从参考图像和源图像中提取匹配特征,然后将它们输入到成本量中,然后使用2D卷积编码器/解码器网络处理输出成本量。该研究使用PyTorch实现,使用ResNet18进行匹配特征提取,使用两块40GBA100GPU在36小时内完成所有工作。此外,尽管该模型不使用3D卷积层,但它在深度预测器上优于基线模型。这表明经过良好设计和训练的2D网络足以进行高质量的深度估计。有兴趣的读者可以阅读论文原文:https://nianticlabs.github.io/simplerecon/resources/SimpleRecon.pdf不过需要提醒的是,阅读这篇论文是有专业门槛的,一些细节可能不容易被注意到。让我们来看看国外网友从这篇论文中发现了什么。一位名为“stickshiftplease”的网友表示,“虽然在A100上的推理时间约为70毫秒,但可以通过各种技巧将其缩短,内存要求也不一定非要40GB,最小的模型运行在2.6GB内存上”另一位名为“IrreverentHippie”的网友指出,“请注意,本次研究仍然基于激光雷达的深度传感器进行采样,这也是该方法取得如此好的质量和精度的原因。”还有一位名叫“nickthorpie”的网友发表了长长的评论。他说,“ToF相机的优点和缺点都有很好的记录。ToF解决了困扰原始图像处理的各种问题。其中,两个主要问题是可扩展性和细节。ToF一直难以识别边缘等小细节桌子或细杆。这对于自主或半自主应用至关重要。另外,由于ToF是一种主动传感器,当多个传感器一起使用时,例如在拥挤的十字路口或自建仓库中,图像质量迅速退化。显然,您在场景中收集的数据越多,您可以创建的描述就越准确。许多研究人员更喜欢研究原始图像数据,因为它更灵活”。
