当前位置: 首页 > 科技观察

Facebook在ICCV2021发布两款3D模型,自我监督是终极答案?

时间:2023-03-19 02:16:56 科技观察

长期以来,CV的训练一直停留在二维数据上,而三维数据因为标注成本高,需要专业人员开发专门的模型。Facebook在ICCV2021上发布了两款3D模型3DETR和DepthContrast,全面升级了模型的通用性,这或许标志着CV研究已经全面进入3D时代!大规模数据的预训练已广泛应用于计算机视觉,也是在特定任务上获得高性能模型的基础。但是这种方式有一个致命的缺陷,就是如果目标数据类型没有大量的标注数据,是没有办法使用这种方式的。3D扫描和识别等带标注的数据集很少,主要是因为3D数据集的标注非常耗时,而用于3D理解的模型通常依赖于用于训练的特定3D数据集的手动架构设计。在ICCV2021上,FacebookAI提出了两个新模型3DETR和DepthContrast,这两个互补的新模型可以促进3D理解并使其更易于使用。新模型建立了一个简化3D理解的通用架构,并能够通过不需要标签的自我监督学习方法来解决这些问题。该代码目前也是开源的。由于各种原因,目前的CV模型也主要集中在2D图片上,但构建机器以理解关于世界的3D数据非常重要。例如,自动驾驶汽车需要3D理解才能移动并避免撞到障碍物,而AR/VR应用程序可以帮助人们完成实际任务,例如可视化沙发是否适合客厅。来自2D图像和视频的数据表示为规则的像素网格,而3D数据则表示为点坐标。由于3D数据更难获取和标记,因此3D数据集通常也比图像和视频数据集小得多。这意味着它们通常在整体大小以及它们包含的类或概念的数量上受到限制。以前,专注于3D理解的从业者需要广泛的领域知识来调整标准CV架构。单视图3D数据(从同时记录深度信息的一个摄像头获取)比多视图3D更容易收集,多视图3D使用两个或多个摄像头记录同一场景。多视角3D数据通常是通过对单视角3D进行后处理生成的,但这一处理步骤有可能失败,有研究人员估计由于源图像模糊等原因,失败率可能高达78%或过度的相机运动。DepthContrast主要解决这些数据问题,因为它可以从任何3D数据(无论是单视图还是多视图)训练自监督模型,从而消除了处理小型未标记数据集的挑战。即使对大量2D图像或视频进行了预训练,一般CV模型也不太可能对AR/VR等复杂应用产生准确的3D理解。https://arxiv.org/abs/2101.02691自监督学习一直是研究界和FAIR感兴趣的主要领域,而DepthContrast也是业界在不使用标记数据的情况下学习强大的3D表示的最新尝试。本研究继承自FAIR之前的工作PointContrast,也是一种针对3D的自监督技术。现在有很多机会获得3D数据。传感器和多视图立体算法通常为视频或图像提供补充信息。然而,理解这些数据以前一直是一个挑战,因为3D数据具有不同的物理属性,具体取决于获取数据的方式和位置。例如,与来自LiDAR等户外传感器的数据相比,来自商用手机传感器的深度数据看起来非常不同。AI研究中使用的3D数据大多以单视点深度图的形式获取,经过3D配准步骤后处理,得到多视点3D。以前的工作依赖于多视图3D数据来学习自监督特征,训练目标主要考虑3D点对应。尽管将单视图数据转换为多视图数据的失败率很高,但DepthContrast表明仅使用单视图3D数据就足以学习最先进的3D特征。可以使用3D数据增强从单视图深度图生成略有不同的3D深度图。DepthContrast通过使用对比学习来对齐从这些增强深度图中获得的特征来实现这一点。结果表明,学习信号可用于预训练不同类型的3D架构,例如PointNet++和SparseConvNets。更重要的是,DepthContrast可以应用于任何类型的3D数据,无论是室内还是室外,单视图还是多视图。我们的研究表明,使用DepthContrast预训练的模型在ScanNet3D检测基准测试中绝对是最先进的。DepthContrast功能在形状分类、对象检测和分割等任务的各种3D基准测试中提供了增益。DepthContrast表明自监督学习也有望实现3D理解。事实上,DepthContrast分享了学习增强不变特征的基本原理,这些特征已被用于支持自监督模型,例如FacebookAI的SEER。第二部作品3DETR是3DDetectionTransformer的缩写。该模型是一个简单的基于Transformer的3D检测和分类架构,可以用作检测和分类任务的通用3D模型。该模型简化了用于训练3D检测模型的损失函数,更易于实现。它还与依赖手动调整的3D架构和损失函数的现有最先进方法的性能相当或超过。https://arxiv.org/abs/2109.081413DETR将3D场景(表示为点云或一组XYZ点坐标)作为输入,并为场景中的对象生成一组3D边界框。这项新研究建立在VoteNet(FAIR用于检测3D点云中的对象的模型)和DetectionTransformers(DETR)的基础上,后者是FacebookAI为重新定义对象检测挑战而创建的更简单版本。建筑学。为了实现2D检测的飞跃,FacebookAI之前的研究确定了两个重要的变化,需要解决Transformer的3D理解工作,以及非参数查询嵌入和傅里叶编码。这两个设计决策都是必要的,因为点云在大量空白空间和噪声点之间具有不同的密度。3DETR使用两种技术来处理这个问题,傅里叶编码比DETR和其他变换器模型/DETR中使用的标准(正弦)嵌入更好地表示XYZ坐标。其次,DETR使用一组固定的参数(称为查询)来预测对象的位置,结果表明该设计决策不适用于点云。相反,我们从场景中随机采样点并预测与这些点相关的对象。预测位置其实没有固定的一组参数,而是随机点采样来适应不同密度的3D点云。使用点云输入,Transformer编码器通过一系列自注意力操作生成场景中物体形状和位置的坐标表示,以捕获识别所需的全局和局部上下文。例如,它可以检测3D场景的几何属性,例如围绕圆桌放置的椅子的腿和靠背。Transformer解码器将这些点特征作为输入并输出一组3D边界框,该边界框对点特征和查询嵌入应用了一系列交叉注意操作。解码器的自注意力表明它关注对象以预测它们周围的边界框。Transformer编码器也足够通用,可用于其他3D任务,例如形状分类。总的来说,3DETR比以前的工作更容易实现。在3D基准测试中,3DETR的性能也优于以前的手工制作的3D架构。它的设计决策也与以前的3D工作兼容,使研究人员能够灵活地将3DETR中的组件适应他们自己的管道。这些模型具有巨大的潜力,从帮助机器人导航世界到为使用智能手机和未来设备(如AR眼镜)的人们带来丰富的全新VR/AR体验。随着手机中3D传感器的普及,研究人员甚至可以从自己的设备中获取单视图3D数据来训练模型。深度对比技术是以自我监督的方式使用这些数据的第一步。通过处理单视图和多视图数据类型,DepthContrast极大地增加了3D自我监督学习的潜在用例。自我监督学习仍然是学习跨文本、图像和视频表示的强大工具。大多数智能手机现在都配备了深度传感器,这为提高3D理解和创造更多人可以享受的新体验提供了重要机会。