从未见过的新物体上,也可以很好地分割。这是DeepMind开发的一种新的学习框架:Objectdiscoveryandrepresentationnetworks(简称Odin)以往的自监督学习(SSL)方法可以很好地描述整个大场景,但很难分离出单个物体。现在,Odin方法做到了,而且它在没有任何监督的情况下做到了。区分图像中的单个对象并不容易。它是怎么做到的?该方法的原理能够很好地区分图像中的各个物体,主要得益于Odin学习框架的“自循环”。Odin学习两组协同工作的网络,一个对象发现网络和一个对象表示网络。对象发现网络将图像的裁剪部分作为输入,该部分应该包含图像的大部分并且没有以其他方式增强。然后对输入图像生成的特征图进行聚类分析,根据不同的特征对图像中的各个物体进行分割。对象表示网络的输入视图是对象发现网络中生成的分割图像。views输入后分别进行随机预处理,包括翻转、模糊、点级颜色变换等。这样就可以得到两组mask,除了裁剪的不同,其他信息是与底层图像内容相同。后两个掩码通过对比损失学习更好地表示图像中对象的特征。具体来说,通过对比检测,训练网络识别不同目标对象的特征,以及来自其他不相关对象的许多“负面”特征。然后,最大化同一目标物体在不同mask中的相似性,最小化不同目标物体之间的相似性,进而进行更好的分割,以区分不同的目标物体。同时,目标发现网络根据目标表示网络的参数定期更新。最终目标是确保这些对象级特征在不同视图中大致不变,换句话说就是分离图像中的对象。那么Odin学习框架的效果如何呢?能够很好地区分未知物体Odin方法在场景分割中无需先验知识的情况下进行迁移学习也很强大。首先,使用Odin方法在ImageNet数据集上进行预训练,然后评估其在COCO数据集以及PASCAL和Cityscapes语义分割上的性能。目标物体是已知的,即在进行场景分割时,获取先验知识的方法明显优于其他没有先验知识的方法。Odin方法即使不获取先验知识,其效果也优于获取先验知识的DetCon和ReLICv2。此外,Odin方法不仅可以应用于ResNet模型,还可以应用于SwimTransformer等更复杂的模型。在数据方面,Odin框架学习的优势很明显,那么Odin的优势在可视化图像上体现在哪里呢?将使用Odin生成的分割图像与从随机初始化网络(第3列)(由ImageNet监督的网络(第4列))获得的图像进行比较。第3列和第4列都未能清楚地勾勒出物体的边界,或者缺乏真实世界物体的一致性和局部性,而Odin生成的图像显然更好。参考链接:[1]https://twitter.com/DeepMind/status/1554467389290561541[2]https://arxiv.org/abs/2203.08777
