论文地址:https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf上海交通大学计算技术研究所、之江实验室研究背景与研究任务生成对抗网络(GAN)在生成高分辨率图像方面取得了巨大成功,其可解释性研究近年来也备受关注。受到广泛关注。在这个领域,如何让GAN学习解耦表示仍然是一个重大挑战。GAN的所谓decoupledrepresentation,即表示的每一部分只影响生成图像的特定方面。先前对GAN的解耦表示的研究侧重于不同的观点。例如,在下面的图1中,方法1将图像的结构和风格解耦。方法2学习图像中局部物体的特征。方法3学习图像中属性的分离特征,例如人脸图像的年龄属性和性别属性。然而,这些研究未能为GAN中的眼睛、鼻子和嘴巴等不同视觉概念提供清晰的符号表示。图1:与其他GAN解耦表示方法的视觉比较为此,研究人员提出了一种将传统GAN修改为可解释GAN的通用方法,这确保了生成器中间层的卷积核可以学习解耦局部视觉概念.具体如下图2所示,与传统GAN相比,可解释GAN中间层的每个卷积核在生成不同图像时总是代表一个特定的视觉概念,不同的卷积核代表不同的视觉概念。概念。图2:可解释GAN和传统GAN编码表示的视觉比较。建模方法可解释的GAN的学习应该满足以下两个目标:卷积核的可解释性和生成图像的真实性。卷积核的可解释性:研究人员希望中间层的卷积核能够自动学习有意义的视觉概念,而无需手动标记任何视觉概念。具体来说,每个卷积核在生成不同图像时,应该稳定地生成对应于相同视觉概念的图像区域。不同的卷积核应该生成对应不同视觉概念的图像区域;生成图像的真实感:可以解释GAN的生成器仍然能够生成逼真的图像。为了确保目标层卷积核的可解释性,研究人员注意到,当多个卷积核生成对应于某个视觉概念的相似区域时,它们通常共同表示这个视觉概念。因此,他们用一组卷积核共同表示一个特定的视觉概念,用不同的卷积核组分别表示不同的视觉概念。同时为了保证生成图像的真实性,研究人员设计了如下损失函数,将传统的GAN修改为可解释的GAN。传统GAN的损失:这个损失用来保证生成图像的真实性;Convolutionkerneldivisionloss:给定一个生成器,这个loss用于寻找卷积核的划分方法,使得同一组的卷积核生成相似的图像区域。具体来说,他们使用高斯混合模型(GMM)来学习如何划分卷积核,以确保每组卷积核的特征图具有相似的神经激活;能量模型真实性损失:给定目标层卷积核但是,强制同一组中的每个卷积核生成相同的视觉概念可能会降低生成图像的质量。为了进一步保证生成图像的真实性,他们使用能量模型输出目标层特征图的真实性概率,并使用最大似然估计来学习能量模型的参数;theconvolutionkernelinterpretabilityloss:给定目标层的卷积核划分方式,这个loss用来进一步提高卷积核的可解释性。具体来说,这种损失使得同一组中的每个卷积核唯一地生成相同的图像区域,而不同组的卷积核分别负责生成不同的图像区域。实验结果在实验中,研究人员定性和定量地评估了他们的可解释GAN。为了进行定性分析,他们将每个内核的特征图可视化,以评估内核所表示的视觉概念在不同图像上的一致性。如下图3所示,在可解释的GANs中,每个卷积核在生成不同图像时总是生成对应于同一视觉概念的图像区域,而不同的卷积核生成对应于不同视觉概念的图像区域。图3:GAN中特征图的可解释可视化实验中还比较了每组卷积核的组中心和卷积核之间感受野的差异,如下图4(a)所示。图4(b)显示了可解释的GAN中不同视觉概念对应的卷积核数量的比例。Figure4(c)showsthatwhenthenumberofconvolutionkernelgroupsselectedtobedividedisdifferent,themoreexplainableGANwithmoregroupscanlearnmoredetailedvisualconcepts.图4:可解释GAN的定性评估可解释GAN还支持修改生成图像上的特定视觉概念。例如,图像之间特定视觉概念的交互可以通过交换可解释层中相应的特征图来实现,即局部/全局人脸交换。下面的图5显示了在图像对之间交换嘴巴、头发和鼻子的结果。最后一列给出了修改后的图像和原始图像之间的差异。这个结果表明我们的方法只修改局部视觉概念,而不是其他不相关的区域。图5:为生成的图像交换特定的视觉概念此外,下面的图6显示了他们的方法在交换整个面部时的性能。图6:交换生成图像的整个人脸为了进行定量分析,研究人员使用人脸验证实验来评估人脸交换结果的准确性。具体来说,给定一对人脸图像,将原始图像的人脸替换为源图像的人脸,生成修改后的图像。然后,测试修改后图像中的人脸是否与源图像中的人脸具有相同的身份。下表1显示了不同方法的人脸验证结果的准确性,其方法在身份保持方面优于其他换脸方法。表1:面部交换身份的准确性评估此外,实验还评估了修改特定视觉概念的方法的局部性。具体来说,研究人员计算了RGB空间中原始图像和修改图像之间的均方误差(MSE),并将区域外MSE与区域内MSE的比值作为特定视觉概念的实验指标用于地方评估。.结果示于下表2中。研究者的修改方法具有较好的局部性,即修改后的视觉概念之外的图像区域变化较小。表2:修改后的视觉概念的局部性评估有关更多实验结果,请参阅论文。总结这项工作提出了一种通用方法,可以将传统的GAN修改为可解释的GAN,而无需对视觉概念进行任何人工注释。在可解释的GAN中,生成器中间层的每个卷积核在生成不同图像时都能稳定地生成相同的视觉概念。实验表明,可解释的GAN还使人们能够修改生成图像上的特定视觉概念,为GAN生成图像的可控编辑方法提供了新的视角。
