对于人类来说,看一张平面照片可以想象重建的3D场景布局,可以根据包含的有限信号识别物体和确定实例大小在2D图像中重建3D场景布局。这个问题有一个术语叫做逆光学问题,指的是从视网膜图像到视网膜刺激的模糊映射。现实世界的计算机视觉应用程序(例如自动驾驶)在很大程度上依赖于这些功能来定位和识别3D对象,这需要AI模型推断投影到2D图像上的每个3D点的空间位置、语义类别和实例标签。从图像重建3D世界的能力可以分解为两个独立的子任务:单目深度估计(从单个图像预测深度)和视频全景分割(实例分割和语义分割)。研究人员通常通过在多个任务之间共享计算的模型权重来为每个任务提出不同的模型。在实际应用中,将这些任务与统一的计算机视觉模型一起处理,可以简化部署,提高效率。基于这样的研究背景,谷歌提出了一个全新的模型ViP-DeepLab,通过深度感知视频全景分割来学习视觉感知。它已被CVPR2021接受,旨在同时解决单目深度估计和视频全景分割。论文还推导了两个数据集,并提出了一种新的评价指标,称为深度感知视频全景质量(DVPQ),可以同时评价深度估计和视频全景分割。ViP-DeepLab是一个统一模型,联合对图像平面上的每个像素进行视频全景分割和单目深度估计,并在子任务的多个学术数据集上取得了sota结果。ViP-DeepLab通过将两个连续帧作为输入来执行额外的预测,输出包括第一帧的深度估计,它为每个像素分配一个深度估计。此外,ViP-DeepLab还对第一帧出现的物体中心进行了连续两帧的中心回归,这个过程称为centershiftprediction,让两帧中的所有像素都归为一组出现在第一帧框架中的相同对象。如果新实例与之前检测到的实例不匹配,则会出现新实例。ViP-DeepLab的输出可用于视频全景分割。连接两个连续的帧作为输入。语义分割输出将每个像素与其语义类别相关联,而实例分割输出从与第一帧中的单个对象关联的两个帧中识别像素,输入图像来自Cityscapes数据集。在本文中,ViP-DeepLab在几个流行的基准数据集上进行了测试,包括Cityscapes-VPS、KITTI深度预测和KITTI多目标跟踪和分割(MOTS)。ViP-DeepLab均取得了最先进的结果,其视频全景质量(VPQ)在Cityscapes-VPS测试中大大优于之前的方法5.1%。单目深度估计在KITTI深度预测基准上的比较,对于深度估计度量,值越小,性能越好。尽管差异可能看起来很小,但在该基准测试中表现最好的方法通常在SILog中的差距小于0.1。此外,VIP-DeepLab还在KITTIMOTS行人和汽车排名指标中使用了新的指标HOTA,并取得了显着的提升。最后,论文还为新任务提供了两个新的数据集,即深度感知视频全景分割,并在其上测试了ViP-DeepLab,该模型的结果将成为社区比较的基准模型。ViP-DeepLab具有简单的架构,可在视频全景分割、单目深度估计以及多目标跟踪和分割方面实现最先进的性能。该模型还可以帮助进一步研究2D场景中的真实世界。
