过去十年,ImageNet基本上是计算机视觉领域的“晴雨表”。如果准确率提高了,你就知道有没有什么新技术了。“Banner排名”一直是模型创新的驱动力,将模型的top-1准确率推至90%+,高于人类。但是ImageNet数据集真的有我们想象的那么有用吗?很多论文都对ImageNet提出了质疑,比如数据覆盖、偏差问题、标签是否完美等等。其中最重要的是,模型90%的准确率真的准确吗?近日,谷歌大脑团队和加州大学伯克利分校的研究人员重新审视了几个sota模型的预测结果,发现模型的真实准确率可能被低估了!论文链接:https://arxiv.org/pdf/2205.04596.pdf研究人员手动审查并分类了一些顶级模型所犯的每个错误,以深入了解基准数据集的长尾错误。主要侧重于ImageNet的多标签子集的评估,最佳模型达到了97%的Top-1准确率。该研究的分析表明,近一半的所谓预测错误根本不是错误,并且还在图像中发现了新的多标签,这意味着如果没有手动预测,这些模型的性能可能会降低审查。真是“低估”了!不熟练的众包数据标注者往往会错误地标注数据,这也在很大程度上影响了模型准确性的真实性。为了标定ImageNet数据集,促进未来的良好进展,研究人员在文中提供了更新版的多标签评估集,将sota模型预测出明显错误的68个例子合并成一个新的数据集,ImageNet-Major,to方便未来的CV研究人员克服这些badcase,还清“技术债”。来自文章标题“面团什么时候变成百吉饼了?”可以看出作者主要针对ImageNet中的labeling问题,这也是历史遗留下来的问题。下图是一个非常典型的标签歧义的例子。图中的标签是“dough”,模型的预测结果是“bagel”。这是错的吗?该模型在理论上不会预测错误,因为面团正在烘烤并且它将成为百吉饼,所以它既是面团又是百吉饼。可以看出,模型其实已经能够预测出这个面团是“即将成为”百吉饼,只是在准确率上并没有打到这一点。事实上,以标准ImageNet数据集的分类任务为评价标准,多标签缺失、标签噪声、类别不明等问题是不可避免的。从负责识别此类对象的众包标注者的角度来看,这是一个语义甚至哲学问题,只能通过多标签来解决,因此ImageNet派生数据集的主要改进是标签问题。ImageNet成立至今已有16年。那时候标注者和模型开发者对数据的理解一定没有今天这么丰富,而ImageNet是早期的大容量和标注相对较好的数据集,所以ImageNet顺理成章地成为了CV。刷榜的标准。但是标注数据的预算显然没有开发模型那么多,所以标注问题的改进也成为了一种技术债。为了找到ImageNet中剩余的错误,研究人员使用了一个标准的ViT-3B模型,它有30亿个参数(能够达到89.5%的准确率),以JFT-3B作为预训练模型,并在ImageNet-1K上做了细微的调整.使用ImageNet2012_multilabel数据集作为测试集,ViT-3B初步取得了96.3%的准确率,其中模型明显错误预测了676张图像,然后对这些示例进行了深入研究。在重新标注数据时,作者并没有选择众包,而是组成了一个由五位专家审稿人组成的团队进行标注,因为这样的标注错误非专业人士很难识别。比如图(a),普通标注者可能只写了一个“表格”,但实际上图片中还有很多其他的对象,比如屏幕、显示器、杯子等等。图(b)的主体是两个人,但标签是picketfence(栅栏),明显不完整。可能的标签包括领结、制服等。图(c)也是一个明显的例子。如果只标注“非洲象”,象牙可能会被忽略。图(d)标为lakeshore(湖岸),其实标为seashore(海滨)也可以。为了提高注释效率,研究人员还开发了一种专用工具,可以同时显示模型预测的类别、预测分数、标签和图像。在某些情况下,专家组之间可能仍然存在标签争议。此时将图片放入谷歌搜索,辅助标注。例如,在一个示例中,模型的预测结果包括出租车,但图片中除了“有点黄”之外没有任何出租车品牌。这张图片的标注主要是通过谷歌图片搜索,发现图片的背景是一座标志性的桥梁,然后研究人员定位到图片所在的城市,通过搜索该城市的出租车图片,识别出了这张照片中的图像。确实包括出租车而不是普通汽车。并且对比车牌的设计也验证了模型的预测是正确的。在对研究的几个阶段发现的错误进行初步审查后,作者首先根据错误的严重程度将其分为两类:1.重大错误:人类可以理解标签的含义,以及模型的预测和标签一点也不;2.Minor:由于预测错误导致标注错误或不完善。需要专家审查数据以进行更正。针对ViT-3B模型所犯的155个重大错误,研究人员找到了另外三个模型进行联合预测,以增加预测结果的多样性。四个模型都预测失败的主要错误有68个,然后分析所有模型对这些例子的预测,验证没有一个是正确的。新的多标签,即每个模型的预测结果确实存在重大错误。这68个例子有几个共同的特点。首先,不同方式训练的sota模型都在这个子集上出现错误,专家评审也认为预测结果完全不相关。68张图像的数据集也足够小,便于后续研究人员进行人工评估。如果未来抓取这68个例子,CV模型可能会有新的突破。通过分析数据,研究人员将预测误差分为四种类型:1.细粒度误差,即预测类别与真实标签相似,但不完全相同;2.Fine-grainedwithout-of-vocabulary(OOV),其中3.错误相关,其中预测标签是从图像的上下文中读取的;4.非原型,其中标签中的对象与预测标签相似,但不完全相同。在审查了原始的676个错误后,研究人员发现其中298个应该是正确的,或者可以确定原始标签是错误的或有问题的。总的来说,通过文章的研究结果可以得出四个结论:1.当一个大规模、高精度的模型做出其他模型没有的新预测时,大约有50%是正确的新多标签;2.更高准确度的模型没有显示类别和错误严重性之间的明确相关性;3.今天的SOTA模型在人类评估的多标签子集上的表现在很大程度上匹配或超过了最好的专家人类4.嘈杂的训练数据和未分配的类别可能是限制图像分类改进的有效测量的一个因素。或许图像标注问题还得等自然语言处理技术来解决?
