这是为3D点云提出的无监督胶囊架构,在3D点云重建、配准和无监督分类方面优于SOTA方法。理解对象是计算机视觉中的核心问题之一。传统上,理解对象的任务可以依赖于大型注释数据集,而无监督方法已经消除了对标签的需求。最近,研究人员试图将这些方法扩展到3D点云问题,但在无监督3D学习领域进展甚微。最近,来自不列颠哥伦比亚大学、谷歌研究院和多伦多大学的研究人员,包括WeiweiSun、AndreaTagliasacchi和GeoffreyHinton,提出了一种用于3D点云的无监督胶囊网络。Hinton是这样说的:在无监督的情况下寻找对象的自然成分和这些成分的内在参考框架是学习将解析图像转换为局部全局层次结构的重要一步。如果您从点云开始,就可以做到。具体来说,我们通过排列等变注意计算对象的胶囊分解,并通过训练随机旋转对象对来自我监督该过程。本研究的核心思想是将注意力掩码聚合成语义关键点,并用它们来监督满足胶囊不变性或等变性的分解。这不仅可以训练语义一致的分解,还可以学习以对象为中心的推理的正则化操作。在这种情况下,训练既不需要分类标签也不需要手动对齐的训练数据集。最后,通过以无监督方式学习以对象为中心的表示,该方法在3D点云重建、配准和无监督分类方面优于SOTA方法。研究人员表示,他们将很快发布源代码和数据集。论文链接:https://arxiv.org/abs/2012.04718项目主页:https://canonical-capsules.github.io/方法网络在未对齐的点云上进行训练,如下图2所示:ResearchersAnetworkwas训练将点云分解成组件,并通过Siamese训练设置实现不变性/等方差。然后,我们将点云归一化为学习到的参考系,并在此坐标空间中执行自动编码。损失在无监督方法中很常见,本研究的框架依赖于大量损失,这些损失控制着在表示中寻求获得的不同特征。请注意所有这些损失是如何不受监督且不需要标签的。研究人员根据他们监督的网络部分组织损失,包括分解、归一化和重建。网络架构研究人员简要介绍了实现细节,包括网络架构。编码器E。我们的架构基于[42]提出的一种类似dotnet的架构,具有剩余连接和注意力上下文规范化;解码器D.等式(4)中的解码器在每个胶囊的基础上运行。本研究采用的解码器架构类似于AtlasNetV2[13](具有可训练网格)。不同的是,本研究将每个胶囊的解码点云通过对应的胶囊位姿进行变换;回归器K。研究人员简单地连接描述符并通过ReLU激活函数调用一系列完全连接的层来回归P-capsule定位。在输出层,我们使用线性激活函数并进一步减去输出均值,使得回归位置在归一化框架中以零为中心;规范化描述符。由于本研究中的描述符仅近似旋转不变(通过扩展),我们发现在归一化后重新提取胶囊描述符β_k很有用。实验和结果自动编码研究人员根据两个训练基线(在单类和多类变体中训练)评估了他们训练网络任务(重建/自动编码)的方法的性能:AtlasNetV2[13],一种使用补丁的SOTA自动编码器-基于多头解码器;3D-PointCapsNet[58],一种利用胶囊架构的3D点云自动编码器。下表1是定量分析的结果。本文中的方法在对齐和未对齐的设置下都实现了SOTA性能结果。下面的图3是定性分析的结果。研究人员展示了基于分解的3D点云重建方法以及3D-PointCapsNet[58]和AtlasNetV2[13]的重建结果。配准研究人员根据配准3D点云的能力评估了该方法的性能,并将其与以下3个基准进行了比较:深度最近点(DCP)[52]:一种基于深度学习的点云配准方法;DeepGMR–RRI[56],一种将云分解为具有旋转不变特征的高斯混合的SOTA方法;DeepGMR–XYZ[56],其中使用原始XYZ坐标作为输入,没有旋转不变特征;本研究中采用的一种变体方法,RRI,其中RRI特征[6]被用作架构的唯一输入。本文使用RRI特征的方法遵循DeepGMR训练协议,训练100个周期,而对于DCP和DeepGMR,本研究使用原作者的官方实现。定量分析的结果如下表2所示:无监督分类除了reconstruction和registration这些与trainingloss直接相关的任务外,本研究还通过分类任务来评估方法的有效性,这与trainingloss无关处理训练损失。结果示于下表3中。本文方法均达到了SOTA的Top-1精度。控制变量实验此外,为了进一步分析CanonicalCapsules不同成分对性能的影响,本研究进行了一系列控制变量实验,结果见下表4、表6和表7:表4:损失影响。表6:规范描述符的有效性。表7:点数对性能的影响。
