当前位置: 首页 > 科技观察

每个像素的无监督标记!再也不用为一个1小时的视频花费800个小时了

时间:2023-03-18 14:44:00 科技观察

在ICLR2022颁奖之际,麻省理工、康奈尔、谷歌和微软“炫耀”了一个全新的SOTA——给世界上的每一个像素都贴上标签而不用体力劳动!论文地址:https://arxiv.org/abs/2203.08414从对比图的效果来看,这种方法有时甚至比手工还要细致,连阴影都标出来了。但遗憾的是,虽然看起来很酷,但却没有入围该奖项(包括提名)。不要错过任何一个像素!说回CV领域,其实数据标注的问题已经困扰学术界很久了。对于人类来说,不管是鳄梨还是土豆泥,甚至是“外星母舰”,只要看一眼就能认出来。但是对于机器,事情就没那么简单了。如果要做一个数据集来训练,就需要在图像中框出特定的内容,而这件事目前只能靠人工来完成。比如草地上坐着一只狗,就需要先把狗圈起来,记为“狗”,然后在后面的土地上加上“草”。基于此,经过训练的模型可以区分“狗”和“草”。而且,这东西很头疼。如果不这样做,模型将很难识别物体、人物或其他重要的图像特征。做吧,又很麻烦??。对于人类注释者来说,分割图像的劳动强度大约是分类或对象检测的100倍。仅注释1小时的数据就需要800小时。数据标注工作者:我也毕业了?为了让人类免于忍受“标签化”的折磨(当然主要是为了推动技术进步),刚才提到的这群科学家提出了一种基于Transformer的新方法“STEGO”。这样,图像语义分割任务就完成了。无监督语义分割的目标是在没有任何形式注释的情况下发现和定位图像语料库中具有语义意义的类别。为了解决这个问题,STEGO算法必须为每个像素生成有意义且足够紧凑的特征以形成不同的簇。与以往的端到端模型不同,STEGO提出了一种将特征学习与聚类分离的方法,寻找出现在整个数据集中的相似图像,然后将这些相似对象关联在一起,从而实现像素级标签预测。CocoStuff数据集上,27类无监督语义分割任务(包括地面、天空、建筑物、草坪、机动车辆、人、动物等)。将基线方法与Cho等人提出的PiCIE方法进行了比较。2021年的图片结果表明,STEGO的语义分割预测结果保留了局部细节特征,同时没有忽略关键物体。STEGO如何在不标记的情况下为每个像素分配标签?STEGO原理和结构STEGO采用Caron等人提出的DINO模型。2021年作为特征提取器。图为原图(左)中标记的蓝、红、绿点如何进行像素特征关联学习。蓝色是天空,绿色是草坪,红色是骑自行车的人。STEGO的核心是一个新的损失函数,它鼓励特征形成紧凑的簇,同时保留它们在整个图像语料库中的关系。使用下式中的损失函数进行训练,提取图像与自身、其K-NearestNeighbor(KNN)像素和其他随机图像之间的特征关系,对应下图中的三个灰色部分。下图显示了STEGO结构。STEGO的训练网络由一个不需要微调和预训练的网络组成,并使用这种结构通过全局平均池化(GAP)提取全局图像特征。然后为特征空间中的每幅图像构造一个K近邻查找表。与其他方法相比,这种FrozenVisualBackbone结构的训练时间非常短,在NVIDIAV100GPU卡上只需要不到2小时。预测结构的最后一个组成部分是聚类和CRF细化步骤,STEGO的分割特征倾向于形成清晰的聚类,这些聚类是使用MacQueen等人提出的基于余弦距离的小批量K-均值算法提取的,1967聚类,并根据STEGO的连续特征计算为形成的聚类分配类别。聚类后??,使用CRF对这些标签进行细化,以进一步提高其空间分辨率。STEGO的整个损失函数如下:实验结果每张验证图像的大小为320×320像素,统一交并比“mIoU”作为评价指标。左图为Cityscapes数据集上标签图像与STEGO语义分割结果的对比,右图为CocoStuff数据集上预测标签与真实标签的混淆矩阵。在CocoStuff数据集上,无监督语义分割任务的对比结果表明,STEGO明显优于以往的方法。显示了Cityscapes(27个类别)中的预测结果。STEGO在准确性和mIoU方面实现了所有基线的显着改进。实验结果表明,STEGO在CocoStuff(+14mIoU)和Cityscapes(+9mIoU)数据集上的精细语义分割任务上取得了良好的性能。尽管有所改进,STEGO仍然面临某些挑战:例如,在CocoStuff数据集中,香蕉和鸡翅是“食品”,而玉米糁和意大利面是“配料”。但是这两者在STEGO眼里并没有什么区别。即使您将香蕉放在电话听筒上,听筒也可能被标记为“食物”。作者简介张周彤,论文第二作者,现为麻省理工学院博士生。就读于清华大学电子工程专业,师从刘业斌教授。此前,他于2021年以第一作者身份在SIGGRAPH上发表了论文《ConsistentDepthofMovingObjectsinVideo》。