如何将现有的2DGAN制作成3D关卡?这是一个有趣且实用的问题。为了解决这个问题,Apple和伊利诺伊大学香槟分校的研究人员试图尽可能少地修改经典的GANStyleGANv2。研究发现只有两个修改是绝对必要的:1)多平面图像样式生成器分支,它生成一组以深度为条件的alpha图;2)以姿势为条件的鉴别器。论文地址:https://arxiv.org/abs/2207.10642本研究将生成的输出称为“生成的多平面图像(GMPI)”。GMPI方法不仅渲染质量高,还保证了视图的一致性。更重要的是,alpha映射的数量可以动态调整,并在训练和推理阶段之间变化,从而缓解内存问题并在不到半天的时间内以1024^2分辨率快速训练GMPI。我们先来看看GMPI方法在三个具有挑战性的常见高分辨率数据集(FFHQ、AFHQv2和MetFaces)上的效果:方法简介本研究通过添加“alpha分支”修改经典生成器,结合简单高效的alpha合成渲染。GMPI生成方法的框架如下图所示,其中generator和alphacompositingrenderer负责生成图像I_v_tgt,在用户指定的posev_tgt生成目标物体。为不同姿势生成的图像保证视图一致。“alpha分支”使用中间表示来生成多平面图像表示M,其中除了单个图像之外还包含不同深度的alpha图。更具体地说,该研究为StyleGANv2开发了一个新的生成器分支,该分支生成一组前平行alpha映射,本质上类似于多平面图像(MPI)。这项研究首次证明MPI可以用作无条件3D感知生成模型的场景表示。这个新的alpha分支是从头开始训练的,同时微调了常规的StyleGANv2生成器和鉴别器。将生成的alpha映射与StyleGANv2输出的单个标准图像相结合,以实现端到端可区分的多平面样式渲染,该研究能够从不同的视图生成具有3D感知的图像,并保证视图的一致性。尽管alpha贴图处理遮挡的能力有限,但渲染非常高效。此外,alphamaps的数量可以动态调整,甚至在训练和推理过程中不同,减少了内存负担。研究发现,要实现3D感知,绝对需要根据特定姿势调整判别器。另一方面,根据alpha图的深度来调整模型也是非常有必要的。该研究通过添加额外的alpha分支对原始StyleGANv2网络进行了简单修改,如下图3所示。为了获得展示预期3D结构的alphamap,研究发现需要对StyleGANv2进行两项调整:(a)MPI中任何平面的alphamap预测必须以平面深度或可学习标记为条件;(b)判别式检测器必须以相机姿势为条件。虽然这两个调整看起来很直观,但它们对于3D感知归纳偏差来说已经足够了。另一个改进alpha映射的归纳偏差是包含阴影的3D渲染。虽然有用,但研究发现,这种归纳偏差对于获得3D感知并不是必需的。此外,研究人员还发现一些经典的2DGAN评估指标可能会导致误导性的结果。实验本研究在三个数据集(FFHQ、AFHQv2和MetFaces)上以各种分辨率分析GMPI。下面的表1和表2提供了速度比较和定量评估结果。通过更快的训练,GMPI在256^2图像上实现了比SOTA模型更好的性能,并且可以生成高达1024^2的高分辨率结果,这是大多数基线模型无法做到的。为了分析方法中关键设计的效果,本研究进行了消融实验,结果如下表3和图4、图5所示。感兴趣的读者可以阅读论文原文了解更多研究细节。
