Facebook开源PyTorch3D后，Google开源3D场景理解库

时间：2023-03-13 13:53:00 科技观察

3D计算机视觉是一个非常重要的研究课题，选择合适的计算框架对处理效果影响很大。此前，机器之心推出了Facebook开源的基于PyTorch框架的3D计算机视觉处理库PyTorch3D，在3D建模、渲染等处理操作上都表现出了较好的效果。最近，另一种常用的深度学习框架TensorFlow也有了自己的高度模块化和高效的处理库。它是GoogleAI推出的TensorFlow3D（TF3D），将3D深度学习能力引入到TensorFlow框架中。TF3D库基于TensorFlow2和Keras构建，可以更轻松地构建、训练和部署3D语义分割、3D实例分割和3D对象检测模型。目前，TF3D库是开源的。GitHub项目地址：https://github.com/google-research/google-research/tree/master/tf3dTF3D提供了一系列流行的操作、损失函数、数据处理工具、模型和指标，让更广泛的研究社区轻松实现开发、训练和部署SOTA3D场景理解模型。TF3D还包括用于SOTA3D语义分割、3D对象检测和3D实例分割的训练和评估管道，并支持分布式训练。该库还支持3D对象形状预测、点云配准和点云加密等潜在应用。此外，TF3D为训练和评估标准3D场景理解数据集提供了统一的数据集规划和配置，目前支持WaymoOpen、ScanNet和Rio三个数据集。但是，用户可以自由地将其他流行的数据集（如NuScenes和Kitti）转换为类似的格式，并在预先存在的或自定义创建的管道中使用它们。最后，用户可以使用TF3D进行各种3D深度学习研究和应用，例如快速原型制作和试验新想法以部署实时推理系统。下图（左）是TF3D库中3D物体检测模型在WaymoOpen数据集帧上的输出示例；下图（右）是TF3D库中的3D实例分割模型在ScanNet数据集场景下的输出示例。3D稀疏卷积网络Google详细介绍了TF3D库中可用的高效且可配置的稀疏卷积骨干网络，这是在各种3D场景理解任务上取得最先进结果的关键。在TF3D库中，Google使用了submanifoldsparseconvolution和poolingoperations，这两种操作都是为了更高效地处理3D稀疏数据而设计的。稀疏卷积模型是户外自动驾驶（如Waymo和NuScenes）和室内基准测试（如ScanNet）中使用的大多数SOTA方法的核心。Google还使用各种CUDA技术来加速计算（例如哈希算法、共享内存中的拆分/缓存过滤器和位操作）。在WaymoOpen数据集上进行的实验表明，此实现比使用预先存在的TensorFlow操作的实现快约20倍。TF3D库中使用3D子流形稀疏U-Net架构来提取每个体素的特征。通过让网络提取稀疏和细微的特征并将它们组合起来进行预测，U-Net架构已被证明是非常有效的。在结构上，U-Net网络由三个模块组成：编码器、瓶颈层和解码器，它们都由大量具有潜在池化或反池化操作的稀疏卷积块组成。下图显示了3D稀疏体素U-Net架构：稀疏卷积网络是TF3D中提供的3D场景理解管道的骨干。此外，3D语义分割、3D实例分割和3D对象检测模型使用稀疏卷积网络从稀疏体素中提取特征，然后添加一个或多个额外的预测头来推理感兴趣的任务。用户可以通过更改编码器或解码器层数和每层卷积数以及调整卷积滤波器大小来配置U-Net网络，从而探索不同骨干网络配置下的各种速度或精度权衡。TF3D支持的三种流水线目前，TF3D支持三种流水线，分别是3D语义分割、3D实例分割和3D对象检测。3D语义分割3D语义分割模型只有一个输出头用于预测每个体素的语义分数，这些分数被映射回点以预测每个点的语义标签。下图是ScanNet数据集中室内场景的3D语义分割结果：3D实例分割除了预测语义外，3D实例分割的另一个目的是将属于同一物体的体素分组在一起。TF3D中使用的3D实例分割算法是基于谷歌之前基于深度度量学习的2D图像分割。该模型预测每个体素的实例嵌入向量和每个体素的语义分数。实例嵌入向量将这些体素嵌入到一个嵌入空间中，在该空间中，属于同一对象实例的体素靠得很近，而属于不同对象的体素彼此远离。在这种情况下，输入是点云而不是图像，并且使用3D稀疏网络而不是2D图像网络。在推理时，贪心算法一次选择一个实例种子，并使用体素嵌入之间的距离将它们分组为片段。3D对象检测3D对象检测模型预测每个体素的大小、中心、旋转矩阵和对象语义分数。在推理时使用boxproposal机制，将数千个per-voxelbox预测减少为几个准确的boxproposals；在训练时将框预测和分类损失应用于每个体素预测。谷歌对预测和地面实况框角之间的距离应用了Huber损失。由于Huer函数根据框大小、中心和旋转矩阵估计框角度并且是可微的，因此该函数将自动返回这些预测的目标特征。此外，谷歌使用动态框分类损失，将与地面真实性强烈重叠的框分类为正，将不与地面真实重叠的框分类为负。下图是ScanNet数据集上的3D物体检测结果：

上一篇：Nature发表文章：基础科学创新步伐放缓，进入“增量时代”

下一篇：勒索软件攻击防御指南

Facebook开源PyTorch3D后，Google开源3D场景理解库相关文章