GAN模型不错,但是对训练数据的要求太高,在场景和物体的语义结合时容易出现不合理的生成图像,造成错视。!近日,Facebook发布了一款号称史上最强迁移能力的IC-GAN模型。它可以组合各种场景和物体,对于训练集中没有出现过的,它可以完美还原!连雪和骆驼放在一起也没有违和感!生成对抗网络(GAN)可以说是图像生成领域最强大的AI模型,无论是逼真的图片、抽象拼贴画还是风格迁移。然而,GAN也有一个神经网络模型共有的致命缺点,即具有局限性,通常只能生成与训练数据集密切相关的物体或场景的图像。例如,在汽车图像上训练的GAN在生成与汽车相关的图像时可以特别逼真,但如果它生成花卉和动物等模型,它可能一看就会是假的,因为生成的图像可能违反物理常识等为了解决这个问题,FacebookAIResearch提出了一种新模型Instance-ConditionedGAN(IC-GAN),它可以生成逼真的、看不见的图像组合。https://arxiv.org/abs/2109.05070可以无缝连接城市中的雪和骆驼或斑马等照片。该代码目前是开源的。受核密度估计(KDE)技术的启发,研究人员引入了一种非参数方法来对复杂数据集的分布进行建模。KDE是一种非参数密度估计器,它将每个训练数据点周围的密度建模为参数核的混合。IC-GAN可以看作是一种混合密度估计器,其中每个组件都是通过对训练实例进行调节而获得的。然而,与KDE不同的是,IC-GAN没有明确地对数据概率进行建模,而是采用了一种对抗性方法,在该方法中,我们使用神经网络隐式地对局部密度进行建模,该网络将条件实例和噪声向量作为输入。因此,IC-GAN中的内核不再独立于我们处理的数据点,我们通过选择实例的邻域大小而不是内核带宽参数来控制平滑度,我们从中采样真实样本以提供给鉴别器.IC-GAN将数据流形划分为由数据点及其最近邻描述的重叠邻域的混合体,IC-GAN模型能够学习每个数据点周围的分布。通过在条件实例周围选择足够大的邻域,可以避免将数据过度划分为小集群。当给定一个包含M个数据样本的未标记数据集的嵌入函数f时,首先使用无监督或自监督训练得到f来提取实例特征。然后使用余弦相似度为每个数据样本定义一组k个最近的邻居。当使用生成器对条件分布p(x|hi)进行隐式建模时,生成器将样本x从单位高斯先验z~N(0,1)变换为从条件分布中提取样本x,其中hi从trainingdata的实例xi的特征向量。在IC-GAN中,使用对抗的方法来训练生成器,因此可以联合训练生成器和判别器,判别器用来区分hi的真实邻居和生成的邻居。对于每个hi,真正的邻居是从Ai中统一采样的。生成器G和判别器D都参与了一个两人最小-最大博弈,在这个博弈中,他们试图找到目标纳什均衡的相等性。在训练IC-GAN时,所有可用的训练数据点都用于微调模型。在推理时,与KDE等非参数密度估计方法一样,IC-GAN的生成器也需要实例特征,这些特征可能来自训练分布或不同的分布。并且这种方法可以扩展到具有类条件的生成。通过在类标签y上添加额外的生成器和鉴别器,IC-GAN可用于类条件生成。IC-GAN通过向生成器和鉴别器提供实例表示作为附加输入,并使用实例的邻居作为鉴别器的地面真值样本,来学习对数据点(也称为实例)邻域的分布进行建模。与离散簇索引的条件不同,实例表示的条件自然会导致生成器为相似的实例生成相似的样本。一旦经过训练,只需在推理时交换条件实例,IC-GAN就可以轻松转移到训练期间未见过的其他数据集。在实验部分,研究人员使用了ImageNet和COCOStuff数据集,实验结果表明,与无条件模型和无监督数据分割基线相比,IC-GAN显着提高了性能。通过将训练集中的所有标签设置为零来训练一个非选择性基线模型BigGAN,IC-GAN在64×64和128×128分辨率下的FID和IS得分均优于之前的所有方法,并且可以产生更高质量的图像在高分辨率下。在进行迁移实验时,首先使用ImageNet上的BigGAN架构训练IC-GAN,测试时使用COCOStuff实例生成图像。这种数据分割模式包含看不见的对象组合。在ImageNet上训练的IC-GAN在所有分割中都优于在COCOStuff上训练的相同模型:8.5vs.16.8在128分辨率下训练FID。为了研究ImageNet和COCOStuff数据分布的接近程度,研究人员计算了两个数据集在128×128分辨率下的真实数据序列分割之间的FID分数为37.2。因此,IC-GAN的显着可迁移性不能用数据集的相似性来解释,而可以归因于ImageNet预训练特征提取器和生成器的有效性。当将COCOStuff中的条件实例替换为ImageNet中的条件实例时,可以获得43.5的训练FID分数,强调了通过更改条件实例可以实现的重要分布转变。研究人员将IC-GAN扩展到类条件案例,并在ImageNet上展示了语义可控的生成和可比较的定量结果。类条件IC-GAN在FID和除FID在128×128分辨率下的得分外的所有分辨率上均优于BigGAN。与BigGAN不同,IC-GAN可以通过固定实例特征和交换类条件,或通过固定类条件和交换实例特征来控制生成图像的语义。生成的图像保留了类标签和实例的语义,可以在相似的背景下生成不同的犬种,或者在ImageNet中生成雪地里的骆驼、未知场景。有了这些新功能,IC-GAN可用于创建新的视觉示例,以扩充数据集以包含不同的对象和场景;为艺术家和创作者提供范围更广、更具创意的AI生成内容;并推进高质量图像生成研究。
