计算图像之间的相似度是计算机视觉中的一个开放问题。在图像生成风靡全球的今天,如何定义“相似度”也是评价生成图像真伪的关键问题。虽然目前有一些比较直接的计算图像相似度的方法,如测量像素的差异(如FSIM、SSIM),但这种方法得到的相似度差异与人眼感知的差异相去甚远。深度学习兴起后,一些研究人员发现一些神经网络分类器,如AlexNet、VGG、SqueezeNet等,在ImageNet上训练后得到中间表示,可以用来计算感知相似度。也就是说,embedding比像素更接近人们对多幅图像相似性的感知。当然,这只是一个假设。最近Google发表了一篇论文,专门研究ImageNet分类器是否可以更好地评估感知相似性。论文链接:https://openreview.net/pdf?id=qrGKGZZvH0虽然已经有基于2018年发布的BAPPS数据集的作品,但在第一代ImageNet分类器上研究了感知分数。为了进一步评估准确率与感知得分之间的相关性,以及各种超参数的影响,论文中加入了最新的ViT模型的研究成果。准确率越高,感知相似度越差?众所周知,在ImageNet上训练学习到的特征可以很好地迁移到很多下游任务中,提升下游任务的性能,这也使得在ImageNet上进行预训练成为一种标准操作。此外,在ImageNet上实现更高的精度通常会转化为在各种下游任务上的更好性能,例如对损坏图像的鲁棒性、对分布外数据的泛化性能以及对较小分类数据集的迁移学习。但在感知相似度的计算中,一切似乎都颠倒过来了。在ImageNet上实现高精度的模型具有较差的感知分数,而那些实现“中等”精度的模型在感知相似性任务上表现最好。ImageNet64×64ValidationAccuracy(x-axis),PerceptionScore(y-axis)on64×64BAPPSdataset,每个蓝点代表一个ImageNet分类器可以看到更好的ImageNet分类器在一定程度上实现了更好的感知得分,但超过一定的阈值,提高准确率会降低感知得分,分类器的准确率适中(20.0-40.0),可以获得最佳的感知得分。论文还研究了神经网络超参数对感知分数的影响,例如宽度、深度、训练步数、权重衰减、标签平滑和丢失。对于每个超参数,都有一个最优精度,提高精度可以提高感知分数,但这个最优值相当低,并且在超参数扫描中很早就达到了。除此之外,分类器准确性的提高会导致更差的感知分数。例如,本文介绍了感知得分关于两个超参数的变化:ResNets中的训练步骤和ViTs中的宽度。提前停止的ResNets在6、50和200的不同深度设置下实现最佳感知分数ResNet-50和ResNet-200的感知分数在训练的前几个epoch达到峰值,但在峰值之后,性能更好分类器感知得分值下降得更厉害。结果表明,随着步长的增加,ResNets的训练和学习率调整可以提高模型的准确率。同样,在达到峰值之后,该模型的感知相似性得分也逐渐下降,这与这种逐渐增加的准确性相匹配。ViT由一组应用于输入图像的Transformer块组成。ViT模型的宽度是单个Transformer块的输出神经元数量。增加宽度可以有效提高模型的精度。研究人员通过替换两个ViT变体的宽度,得到两个模型B/8(即Base-ViT模型,patch大小为4)和L/4(即Large-ViT模型),并评估了准确性和感知分数。同样,结果类似于使用提前停止的ResNet的观察结果,其中具有较低精度的较窄ViT比默认宽度表现更好。然而,ViT-B/8和ViT-L/4的最佳宽度分别是其默认宽度的6%和12%。该论文还为其他超参数提供了更详细的实验列表,例如宽度、深度和训练步骤。ResNets和ViTs中的数字、权重衰减、标签平滑和丢失。所以如果想提高感知相似度,策略很简单,适当降低准确率即可。通过缩小ImageNet模型来提高感知得分,表中的值表示在具有默认超参数的模型上通过给定超参数缩放模型获得的改进基于以上结论,提出了一种简单的策略来提高性能架构的感知分数:按比例缩小模型以降低准确性,直到达到最佳感知分数。在实验结果中还可以看到,通过在每个超参数上缩小每个模型获得的感知分数提高。提前停止在除ViT-L/4之外的所有架构中得分最高,提前停止是最有效的策略,无需耗时的网格搜索。全局感知函数在以前的工作中,感知相似性函数是使用跨图像空间维度的欧几里德距离计算的。这种方法假设像素之间存在直接对应关系,这可能不适用于扭曲、平移或旋转的图像。在这篇论文中,研究人员在神经风格迁移工作中使用了两个依赖于图像全局表示的感知函数,即风格损失函数和归一化平均池化距离,以捕获两个图像函数之间的风格相似性。风格损失函数比较两幅图像之间的通道间互相关矩阵,而平均池化函数比较空间平均的全局表示。全局感知函数不断提高使用默认超参数训练的网络和ResNet-200作为训练时期函数的感知分数。还探索了一些假设来解释准确性和感知分数之间的关系,以及一些额外的见解。例如,没有常用跳跃连接的模型精度也与感知分数成反比,与靠近输入的层相比,靠近输出的层平均感知分数较低。进一步探索了失真灵敏度、ImageNet类别粒度和空间频率灵敏度。综上所述,本文探讨了提高分类准确率是否会带来更好的感知指标的问题,研究了不同超参数下ResNets和ViTs上准确率与感知得分的关系,发现感知得分与准确率呈现倒U型关系,其中精度与感知得分在一定程度上相关,呈现倒U型关系。最后,文章详细讨论了准确率和感知分数之间的关系,包括跳跃连接、全局相似函数、失真敏感度、层次感知分数、空间频率敏感度和ImageNet类别粒度。虽然ImageNet准确性和感知相似性之间权衡的确切解释仍然是个谜,但这篇论文是向前迈出的第一步。
