Learningvisualrepresentationsthroughself-supervisedlearning在计算机视觉领域逐渐流行起来。该论文提出可以通过传递不变性来实现视觉表征的自监督学习,该网络在多种识别任务中表现良好,甚至在表面正态性评估任务中表现优于ImageNet网络。论文:TransitiveInvarianceforSelf-supervisedVisualRepresentationLearning论文地址:https://arxiv.org/abs/1708.02901通过自监督学习来学习视觉表征在计算机视觉领域逐渐流行起来。方法是设计可以随意获取标签的辅助任务。大多数辅助任务最终将提供数据来学习一种有助于识别的特定不变性。在本文中,我们建议利用不同的自监督方法来学习与(i)实例间变异(同一类的两个对象应该具有相似的特征),(ii)实例内变异相关的表示。实例内变化、视角、姿势、变形、亮度等)是独立的。我们没有将这两种方法与多任务学习联系起来,而是组织和推理具有多个不变量的数据。具体来说,我们建议使用从数百或数千个视频中挖掘出的数百万个对象来生成图表。这些对象由两种边连接,对应两种不变性:“具有相似视图和类的不同实例”和“同一实例的不同视图”。通过对具有这些边的图应用简单的传递性,我们能够获得具有更丰富的视觉不变性的图像对。我们使用这些数据来训练一个以VGG16作为基本架构的Triplet-Siamese网络,以将学习到的表示应用于不同的识别任务。对于目标检测,我们使用FastR-CNN在PASCALVOC2007数据集上实现了63.2%的mAP(使用ImageNet预训练时为67.3%)。在困难的COCO数据集上,使用我们的方法获得的结果(23.5%)与ImageNet监督的结果(24.4%)惊人地接近。我们还证明我们的网络在表面法线估计任务上优于ImageNet网络。图1:我们建议使用简单的传递关系来捕获丰富的不变性。在这个例子中,两辆不同的汽车A和B通过有利于跨实例不变性的特征连接起来;每辆车都通过视觉跟踪链接到另一个视图(A'和B')。然后,我们可以使用传递性从对象对、和中获取新的不变量。图2:图形构造描述。我们首先将对象节点聚类成较粗的簇(称为“父”簇),然后在每个簇内执行最近邻搜索以获得包含4个样本的“子”簇。每个子集群内的样本通过“实例内”边相互连接。我们通过视觉跟踪增加新样本,并通过“实例间”边将它们连接到原始对象。图5:用于训练网络的样本。每列都是一系列图像块{A,B,A',B'}。这里,A和B由实例间边连接,A'/B'和A/B由实例内边连接。图6:我们的Triplet-Siamese网络。我们为网络提供不同的样本连接。图7:PASCALVOC数据集上的最近邻搜索。我们提取了三种类型的特征:(a)上下文预测网络,(b)使用我们的自我监督方法训练的网络,以及(c)在ImageNet数据集上预训练的标记网络。我们证明我们的网络可以代表更多种类(例如,观点)的同一类对象。【本文为栏目组织《机器之心》微信公众号《机器之心(id:almosthuman2014)》原文翻译】点击此处查看作者更多好文
