介绍现有的生成图像评价工作主要是根据生成图像的分布来评价模型的“整体”生成效果。然而,高性能的生成模型并不意味着它合成的“任何”图像都有高质量的结果。在基于参考图片的生成任务中,比如将用户上传的风景照片渲染到一定风格的业务场景中,可以评价“单张”生成图片的质量,这对于提升用户的使用体验非常重要。至关重要的。本研究提出了一种基于参考图像评估从单个图像生成的图像质量的方法,即参考引导图像合成评估(RISA)。RISA的贡献和创新可以概括为以下几个方面:RISA的训练图像来自GAN训练过程的中间模型生成的图像,图像的质量标签来自模型的迭代次数,无需人工labeling,理论上可以用于训练数据是无限的。由于模型迭代轮数不够精细,采用逐像素插值和多个二元分类器的方法来增强训练的稳定性。引入无监督对比学习损失来学习参考图像和生成图像之间的风格相似性。论文链接:https://arxiv.org/pdf/2112.04163.pdf实施策略RISA的整体框架非常简单。参考图像和生成图像通过参数共享式提取器得到对应的特征向量,然后计算两个特征向量的L1距离,输入到多个二元分类器得到预测向量,最后得到的元素预测向量被平均以获得最终的质量分数。RISA的训练数据来自GAN训练过程中中间模型的一系列生成图像。下图给出的性别转换任务就是一个例子。可以看出,在GAN训练初期,模型随着训练迭代次数的增加,生成图像的质量会明显提高;并且在训练后期,模型生成的图像质量会趋于稳定。本文将中间模型生成的一系列图像作为RISA的训练数据,这些图像的样本标签通过其对应模型的训练迭代次数得到。但很明显,这样的标注形式并不适合后期训练的模型,因为后期训练生成的图像质量不会有明显的变化。为了使训练数据更适合RISA训练,本文采用逐像素插值的技术,即图像空间的线性插值,估计训练后期图像质量的变化.如下图,理想情况下,随着GAN训练轮数的增加,生成图像单调变好,但实际上,对于简单的任务,训练后生成图像的质量几乎没有变化;对于难度较大的任务,训练后生成图像的质量随着训练轮数的增加,图像质量呈现出振动变好的趋势。因此,选择FID曲线变化的肘点作为GAN早期和晚期训练阶段的分界线。对于训练前期,直接对中间模型进行采样生成图像,迭代次数作为图像质量标签;对于后期的训练,初始和最终两个模型生成质量差异显着的图像,然后对其进行线性插值得到一系列中间质量的图像。下面的动画显示了一些插值图像的演示。图中所示的epsilon表示两幅图像融合的权重。除了图像空间的插值之外,为了保证RISA训练的稳定性,RISA的预测使用二元分类器(multiplebinaryclassifers)输出平均形式,而不是使用简单的回归器输出拟合值。第二个二元分类器用于预测当前生成的图像质量大于某个阈值的概率。实验表明,将质量评估从回归问题转化为分类问题可以显着提高RISA的性能。损失函数的设计考虑了三个方面:1)弱监督损失,用于拟合输入参考图像&生成图像对及其对应的质量标签;2)无监督contrastivelearningloss,用于捕捉参考图像并生成图像风格相似度;3)用于从真实图像中学习两个增强图像的风格一致性的上限损失。upperboundloss表达的是完全相同的风格信息,将其送入RISA预测应该对应最高质量分数1。在contrastivelearningloss中,论文首先考虑了参考图像的两个不同数据增强的图像和而不破坏图像风格信息,即只包括图像缩放、裁剪和翻转。生成图像并形成正样本对,并比较学习损失以缩小其预测输出;在同一批输入样本中,与其对应的参考图像和与其不对应的参考图像形成负样本对,contrastivelearninglosss放大了它们的预测输出。实验结果本文基于四种生成模型,在五个数据集上对生成的图像训练多个RISA模型。首先,从视觉上看,下图表明RISA可以从低到高给出相应的质量评价分数。然后,本文从量化指标的角度,进行了大量的人工评价测试,说明RISA评价结果与人的主观感受具有较高的一致性。具体来说,为每个任务选择了数千个三元组样本,包括一个参考图像和两个生成图像。生成的两个图像可能来自同一架构模型的两个不同训练阶段之间的中间模型,或者来自不同架构的两个完全收敛的模型。测试人员被要求选择两者中质量较好的一个。最后,对于每项任务,保证每组样本至少有3名测试人员参与评价,保留评价一致的样本,用于评价RISA评价与人的主观感受的一致性。下表对应于RISA的训练和测试数据均由同一架构的模型生成的情况。可以看出,RISA的评价结构与人的主观感受具有更高的一致性,优于现有主流的参考和非参考单一图像质量评价方法。下表对应于RISA的训练和测试数据均由不同架构的模型生成的情况。表中的结果进一步说明RISA具有更好的在不同模型之间迁移的能力。因此,研究人员提供了RISA在三元组上的视觉比较以及每个数据集上的最佳基线方法。可以看出,RISA在考虑生成图像的真实性的同时,具有评估生成图像与参考图像风格相似程度的能力。最后,研究人员进行了两组消融实验来说明RISA引入多个二元分类器、逐像素插值及其每个损失项的意义。
