继GauGAN2之后,NVIDIA又推出了GAN“超级拼接体”——PoEGAN。PoEGAN可以接受来自多种模态的输入,文本描述、图像分割、草图和样式都可以转换为图片。并且可以同时接受以上输入方式的任意两种组合,这就是PoE的意思。所谓PoE就是Hinton在2002年提出的“productofexperts”的概念,每个专家(separatemodel)被定义为输入空间上的一个概率模型。而每个单独的输入模态都是合成图像必须满足的一个约束条件,所以满足所有约束的一组图像就是满足每个约束集的交集。假设各约束的联合条件概率分布服从高斯分布,则用单条件概率分布的乘积来表示交集的分布。在这种情况下,为了使产品分布在一个区域中具有高密度,每个单独的分布需要在该区域中具有高密度,以便满足每个约束。而PoEGAN的重点是如何将各种输入混合在一起。PoEGAN的设计PoEGAN的生成器使用全局PoE-Net混合不同类型输入的变体。我们将每个模态输入编码为一个特征向量,然后使用PoE将其聚合到一个全局PoE-Net中。解码器不仅使用全局PoE-Net的输出,还直接连接分割和草图编码器输出图像。全局PoE-Net的结构如下,这里使用潜在特征向量z0作为样本使用PoE,然后经过MLP处理输出特征向量w。在判别器部分,作者提出了一种多模态投影判别器,它泛化了投影判别器以处理多个条件输入。与计算图像嵌入和条件嵌入之间的单个内积的标准投影鉴别器不同,这里为每个输入模态计算内积并求和以获得最终损失。随意变换输入的GANPoE可以生成单模态输入、多模态输入甚至无输入的图片。当使用单一输入模式进行测试时,PoE-GAN优于之前专门为该模式设计的SOTA方法。例如,在分割输入模态上,PoE-GAN优于之前的SPADE和OASIS。在文本输入模式中,PoE-GAN优于文本到图像模型DF-GAN、DM-GAN+CL。当以任意模式子集为条件时,PoE-GAN可以生成不同的输出图像。PoE-GAN的随机样本如下所示,条件是风景图像数据集上的两种模式(文本+分割、文本+草图、分割+草图)。PoE-GAN甚至可以没有输入,此时PoE-GAN将成为无条件生成模型。以下是PoE-GAN无条件生成的样本。团队介绍论文的通讯作者是NVIDIA知名工程师刘明宇。他的研究重点是深度生成模型及其应用。NVIDIACanvas和GauGAN等有趣的产品都来自他。论文第一作者黄迅,毕业于北京航空航天大学,获学士和博士学位。来自康奈尔大学。他现在在NVIDIA工作。论文地址:https://arxiv.org/abs/2112.05130PoE:https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf投影鉴别器:https://arxiv.org/abs/1802.05637
