当前位置: 首页 > 科技观察

人工智能根据正脸生成多个侧脸,利用生成对抗网络生成多角度侧脸

时间:2023-03-14 15:48:12 科技观察

人工智能根据正面生成多个剖面,并使用GAN生成多角度剖面多视图图像是一个基础但具有挑战性的问题。它在视觉、图形和机器人技术方面有着广泛的应用。我们的研究表明,由于单路径框架,广泛使用的生成对抗网络(GAN)可能会学习“不完整”的表示:编码器-解码器网络后跟鉴别器网络。我们提出CR-GAN来解决这个问题。除了单一的重建路径外,我们还引入了世代来保持学习嵌入空间的完整性。这两种学习途径以参数共享的方式协作和竞争,这显着提高了对“未见过”数据集的泛化能力。更重要的是,双路径框架可以结合标记和未标记数据进行自监督学习,进一步丰富实际生成的嵌入空间。实验结果表明,CR-GAN明显优于最先进的方法,尤其是在野外条件下从“看不见的”输入生成时。人工智能从正面生成多个配置文件,使用生成对抗网络生成多角度配置文件简介:从单视图输入生成多视图图像是一个有趣的问题,在视觉、图形和机器人技术中具有广泛的应用。然而,这是一个具有挑战性的问题,因为1)计算机需要“想象”给定对象在应用3D旋转后的样子;2)多视图生成应该保持相同的“身份”。一般来说,以前解决这个问题的方法包括模型驱动合成[BlanzandVetter,1999]、数据驱动生成[Zhuetal.,2014;严等。,2016],以及两者的结合[Zhuetal.,2016;Rezende等人,2016]。最近,生成对抗网络(GAN)[Goodfellow等人。,2014]在多视图生成方面取得了令人印象深刻的结果[Tran等人。,2017;赵等人,2017]。AI从正面生成多个配置文件,使用生成对抗网络生成多角度配置文件贡献:这些基于GAN的方法通常采用单路径设计:编码器-解码器网络后跟鉴别器网络。编码器(E)将输入图像映射到潜在空间(Z),其中首先对嵌入进行操作,然后将其馈送到解码器(tt)以生成新颖的视图。然而,我们的实验表明,这种单通道设计可能存在严重问题:它们只能学习“不完整”的表征,对“未见”或不受约束的数据产生有限的泛化能力。以图1为例。在训练过程中,E的输出只构成Z的一个子空间,因为我们通常有有限数量的训练样本。这将使tt仅“看到”Z的一部分。在测试期间,E很有可能将“看不见”的输入映射到子空间之外。因此,tt可能会由于意外嵌入而产生较差的结果。为了解决这个问题,我们建议CR-GAN学习多视图生成的完整表示。主要思想是,除了重建路径之外,我们还引入了另一条生成路径,以从Z中随机采样的嵌入创建特定于视图的图像。请参阅图2进行说明。两条路径共享相同的tt。也就是说,在生成路径中学习到的tt会指导重构路径中E和D的学习,反之亦然。E被迫为tt的倒数,从而产生完整Z空间的完整表示。更重要的是,双路径学习可以很容易地利用标记和未标记数据进行自监督学习,这可以在很大程度上丰富自然生成的Z空间。总之,我们有以下贡献:据我们所知,我们是第一个研究GAN模型“完整表示”的;我们提出使用双路径学习方案学习“完整”表征的CR-GAN;CR-GAN可以利用未标记数据进行自我监督学习,从而提高生成质量;CR-GAN甚至可以在野外条件下从“看不见的”数据集中生成高质量的多视图图像。人工智能从正面生成多个profile,使用generativeadversarialnetworks生成multi-angleprofilesProposedmethod:toyexampleofincompleterepresentation,single-pathnetwork,即encoder-decodernetworkfollowingadiscriminatornetwork,可能有的问题学习“不完整”的表征。如图2左侧所示,编码器E和解码器tt只能“接触”Z的子空间,因为我们通常只有有限的训练数据。当使用“看不见的”数据作为输入时,这可能会导致严重的测试问题。E很可能将新输入映射到子空间之外,这不可避免地导致穷人生成,因为tt从未“看到”嵌入。玩具示例用于解释这一点。我们使用Multi-PIE[Gross等人。,2010]训练单通网络。如图1顶部所示,只要将输入图像映射到学习的子空间,网络就可以在Multi-PIE(第一行)上生成逼真的结果。然而,当对来自IJB-A[Klareetal.,2015]的“看不见的”图像进行测试时,网络可能会产生不令人满意的结果(第二行)。在这种情况下,新图像被映射到学习的子空间之外。这一事实促使我们训练可以“覆盖”整个Z空间的E和tt,以便我们可以学习完整的表示。我们通过引入一个单独的生成路径来实现这一点,其中生成器专注于将整个Z空间映射到高质量图像。图2说明了单路径和双路径网络之间的比较。我们的方法参见图3(d)。人工智能根据正面生成多个侧面,利用生成对抗网络生成多角度侧面实验:CR-GAN的目标是学习床空间中的完整表示。我们通过将双向架构与自我监督学习相结合来实现这一目标。我们进行实验来分别评估这两个贡献。然后我们将我们的CR-GAN与DR-GAN进行比较[Tran等人。,2017],显示嵌入空间中的视觉结果和t-SNE可视化。我们还将CR-GAN和BiGAN与图像重建任务进行了比较。实验设置,数据集。我们在有和没有视图标签的数据集上评估CR-GAN。多PIE[Gross等人。,2010]是在受限环境中收集的标记数据集。我们使用了第一节课的250个主题,其中包括60个9个姿势、20个灯光和两个表情。前200个对象用于训练,其余50个用于测试。300wLP[朱等人。,2016]通过面部解剖法[Zhuetal.,2016]从300W[Sagonasetal.,2013],其中还包含视图标签。我们拍摄偏航角从60°到+60°的图像,并将它们分成9个间隔。为了评估未标记的数据集,我们使用CelebA[Liuetal.,2015]和IJB-A[Klareetal.,2015]。CelebA包含大量具有不平衡视点分布的名人图像。因此,我们收集了72,000张范围从60°到+60°的图像的子集。请注意,CelebA中图像的视图标签仅用于收集子集,在训练期间不使用视图或身份标签。我们还使用包含5,396张图像的IJB-A进行评估。由于身份和姿势的多样性,该数据集具有挑战性。人工智能基于正面生成多个侧面,利用生成对抗网络生成多角度侧面结论:本文研究了GAN模型的学习“完全表示”。我们建议CR-GAN使用双路径框架来实现目标。我们的方法可以利用标记和未标记的数据进行自我监督学习,甚至在野外条件下从“看不见”的数据中生成高质量的多视图图像。