当前位置: 首页 > 科技观察

Shading-GuidedGenerationofImplicitModelsforShape-Accurate3DPerceptualImageSynthesis

时间:2023-03-14 21:24:33 科技观察

生成辐射场的发展推动了3D感知图像合成的发展。由于观察到3D对象从多个角度看起来很逼真,这些方法引入多视图约束作为正则化,以从2D图像中学习有效的3D辐射场。尽管取得了进展,但由于形状颜色模糊,它们常常无法捕获准确的3D形状,从而限制了它们在下游任务中的适用性。在这项研究工作中,来自马克斯普朗克研究所和香港中文大学的学者通过提出一种新的着色器引导生成隐式模型ShadeGAN来解决这一歧义,该模型学习改进的形状表示。论文地址:https://arxiv.org/pdf/2110.15678.pdf代码地址:https://github.com/xingangpan/shadegan重点是精确的3D形状在不同光照条件下也应该产生逼真的效果图。通过在各种照明条件下显式建模照明和执行着色来实现多个照明约束。通过将合成图像提供给鉴别器来获得梯度。为了补偿计算表面法线的额外计算负担,研究团队通过表面跟踪进一步设计了一种高效的体绘制策略,分别减少了24%和48%的训练和推理时间。在多个数据集上的实验表明,ShadeGAN在捕捉准确的底层3D形状的同时,实现了逼真的3D感知图像合成。他们还展示了该方法优于现有3D形状重建方法的性能,并适用于图像重新照明。1.引入先进的深度生成模型,如StyleGAN和BigGAN,在自然图像合成方面取得了巨大的成功。但是这些基于2D表示的模型无法以3D一致的方式合成实例的新视图。它们也不能表示明确的3D对象形状。为了克服这些限制,研究人员提出了新的深度生成模型,将3D场景表示为神经辐射场。3D感知生成模型可以显式控制视点,同时在图像合成过程中保持3D一致性。他们展示了在无监督环境中从一组不受约束的2D图像中学习3D形状的巨大潜力。如果可以训练用于3D感知的生成模型来学习准确的3D对象形状,则可以扩展各种下游应用程序,例如3D形状重建和图像重新照明。现有的3D感知图像合成尝试倾向于学习不准确且嘈杂的粗糙3D形状,如下图所示。研究发现,这种不准确是由于该方法采用的训练策略不可避免地存在歧义。特别是一种称为“多视图约束”的正则化类型用于强制执行3D表示,使其从不同的角度看起来更逼真。该约束通常首先将生成器的输出(例如,辐射场)投影到随机采样的视点,然后将其作为假图像馈送到鉴别器进行训练。虽然此约束使模型能够以3D感知方式合成图像,但它会受到模棱两可的形状-颜色关联的影响,即使是很小的形状变化也会生成类似的RGB图像,这些图像对鉴别器来说同样合理,因为许多物体颜色在局部是平滑的.因此,不准确的形状仍然隐藏在这个约束之下。在本文中,研究团队提出了一种新的着色器引导生成隐式模型(ShadeGAN)来解决上述歧义。特别是,ShadeGAN通过显式建模阴影(即光照和形状的交互)来学习更准确的3D形状。一个精确的3D形状不仅要从不同的角度看起来逼真,而且在不同的光照条件下也要逼真,即满足“多重光照约束”。这个想法与光度立体有相似的直觉,表明可以从在不同光照条件下拍摄的图像中恢复准确的表面法线。请注意,可能存在多种光照约束,因为用于训练的真实图像通常是在各种光照条件下拍摄的。为了满足这一约束,ShadeGAN采用??可重新照明的色场作为中间表示,它近似反照率但不一定满足视点独立性。在渲染过程中,色域在随机采样的光照条件下进行着色。由于通过这种着色处理的图像外观强烈依赖于表面法线,因此与早期的与着色无关的生成模型相比,不准确的3D形状表示将显示得更清楚。通过满足多个光照约束,可以鼓励ShadeGAN推断出更准确的3D形状,如上图右下角所示。上述着色过程需要通过生成器通过反向传播计算法线方向,而在3D体绘制中,单个像素的计算需要重复数十次,从而引入额外的计算开销。现有的高效体绘制技术主要针对静态场景,面对动态特性无法直接应用于生成模型。为了提高ShadeGAN的渲染速度,研究团队构建了一个高效的表面跟踪网络,以基于潜在代码评估渲染对象的表面。这使他们能够通过仅查询预测表面附近的点来节省渲染计算,在不影响渲染图像质量的情况下将训练和推理时间减少24%和48%。ShadeGAN的有效性通过多个数据集的综合实验得到验证。结果表明,我们提出的方法能够合成逼真的图像,同时捕获比以前的生成方法更准确的底层3D形状。学习到的3D形状分布支持各种下游任务,例如3D形状重建,其中ShadeGAN明显优于BFM数据集上的其他基线。对着色过程建模可以明确控制照明条件,从而实现图像重新照明效果。ShadeGAN可以概括如下:1)使用满足多个光照约束的阴影引导生成模型,从而解决现有3D感知图像合成中的形状-颜色模糊问题。ShadeGAN能够学习更准确的3D形状以实现更好的图像合成。2)通过表面跟踪设计了一种高效的渲染技术,大大节省了基于体积渲染的生成模型的训练和推理时间。3)ShadeGAN学会了分离阴影和颜色,更接近反照率,在图像合成中实现了自然的重光照效果2.ShadeGANNeuralBodyRendering从NeuralRadiationField(NeRF)的开创性工作开始,神经体渲染在表示上它已广泛应用于3D场景和合成新视图。通过将基于坐标的神经网络与体绘制相结合,NeRF完成了具有3D一致性的高保真视图合成。已经提出了几种扩展或改进NeRF的尝试。例如,进一步模拟照明,然后学习在给定对齐的多视图、多照明图像的情况下将反射与阴影分开。此外,许多研究从空间稀疏性、建筑设计或高效渲染的角度加速了静态场景的渲染。将这些照明和加速技术应用于基于体积渲染的生成模型并非易事,因为它们通常是从表示相对于输入潜在编码发生变化的动态场景的非本地化、未配对图像中学习的。研究团队首次尝试在基于体积渲染的生成模型中对照明进行建模,作为精确3D形状学习的正则化。并且我们进一步设计了大学渲染技术的方法,它有类似的见解,但不依赖于通过真实深度进行训练,也不局限于小范围的观点。生成3D感知图像合成生成对抗网络(GAN)可以生成高分辨率的逼真图像,但对相机视点的明确控制很少。为了能够以3D感知的方式合成图像,许多最近的方法研究了如何将3D表示合并到GAN中。一些研究直接从3D数据中学习,但在这篇论文中,研究团队专注于只能访问不受约束的2D图像的方法,因为这是更现实的设置。研究团队多次尝试采用3D体素特征并学习神经渲染,产生了逼真的3D感知合成,但3D体素不可解释,无法转换为3D形状。NeRF可以成功地将辐射场用作GAN中的中间3D表示,从而产生一些令人印象深刻的具有多视图一致性的3D感知图像合成,但这些方法提取的3D形状通常不精确且有噪声。在这篇论文中,研究团队的主要目标是通过在渲染过程中对光照进行显式建模来解决形状不准确的问题。这项创新可能会带来更好的3D感知图像合成,这将有更广泛的应用。从2D图像中进行无监督的3D形状学习ShadeGAN涉及一种无监督的方法,可以从不受约束的单眼视图2D图像中学习3D对象形状。虽然一些方法使用外部3D形状模板或2D关键点作为弱监督,但本文考虑了更困难的设置,其中只有2D图像可用。大多数方法采用“综合分析”范式,其中摄影几何自动编码器旨在推断每个图像的3D形状和视点,并带有重建损失。可以学习某些对象类的3D形状,但通常依靠正则化来防止琐碎的解决方案,例如常用的对象形状对称假设。这种假设往往会产生对称的结果,可能会忽略对象的不对称方面。最近,GAN2Shape表明可以为2DGAN生成的图像恢复3D形状。但是这种方法需要低效的特定于实例的训练并恢复深度图而不是完整的3D表示。本文提出的3D感知生成模型也可以作为无监督3D形状学习的强大方法。与上述基于自动编码器的方法相比,基于GAN的方法无需推断每个图像的视点,也不依赖于强正则化。实验进一步证明,与最新和最先进的方法Unsp3d和GAN2Shape相比,ShadeGAN具有更高的性能。3.ShadeGAN方法ShadeGAN通过从不受约束和未标记的2D图像中学习来考虑3D感知图像合成的问题。在生成隐式模型中对阴影进行建模,即光照和形状的相互作用,可以无监督地学习更准确的3D对象形状。接下来,提供了对神经辐射场(NeRF)的初步介绍,然后是对着色引导生成隐式模型的详细介绍。3.1神经辐射场的初步研究NeRF作为一种深度隐式模型,使用MLP网络将3D场景表示为辐射场。以3D坐标和观察方向为输入,输出体积密度和颜色。为了在给定的相机姿势下渲染图像,图像的每个像素颜色C是通过沿着其相应的相机光线的体积渲染获得的,如下所示:实际上,这种体积渲染是使用以离散形式实现的分层和分层采样完成的。由于这个渲染过程是可微分的,NeRF直接通过静态场景的姿态图像进行优化。训练后,NeRF允许以新颖的相机姿势渲染图像,从而实现高质量的新颖视图合成。3.2Shading-GuidedGenerationofImplicitModels开发一代隐式模型是很有趣的,它可以模拟3D图像合成的显式着色过程。研究团队对NeRF中的MLP网络进行了两次扩展。首先,与大多数深度生成模型一样,它进一步依赖于从先验分布中采样的潜在编码z。其次,它不是直接输出颜色c,而是输出一个可重新发光的前余弦颜色项。它在概念上类似于反照率,因为它可以在给定的光照条件下被遮蔽。尽管反照率与视点无关,但在这项工作中,为了解决数据集偏差,并没有严格针对一个数据集实现这种独立性。因此,我们的生成器将坐标x、观察方向d和潜在方向编码z作为输入,并输出体积密度σ和前余弦颜色a。请注意,此处σ与d无关,a对d的依赖性是可选的。为了获得相机光线的颜色C,即近边界和远边界之和,研究团队通过以下方式计算最终前余弦颜色A:研究团队还使用以下公式计算法线n:是体积密度σ的导数关于它的输入坐标,它自然地捕获局部法线方向并且可以通过反向传播计算。然后通过朗伯着色获得最终颜色C如下:是光照方向,是环境和漫反射系数。相机和光照采样方程(2-4)描述了在给定相机光线r(t)和光照条件的情况下渲染像素颜色的过程。生成完整图像除了潜在编码z之外,还需要对相机姿势和光照条件μ进行采样,即。在设置中,相机姿势可以通过俯仰角和偏航角来描述,并从先前的高斯分布或均匀分布中采样,如之前的工作所做的那样。在训练期间对相机姿势的随机采样将激励学习的3D场景从不同角度看起来逼真。虽然这种多视图约束有利于学习高效的3D表示,但通常不足以推断准确的3D对象形状。因此,在本文中,研究团队还通过从先验分布中随机采样光照条件μ,进一步引入了多重光照约束。事实上,它可以使用现有方法从数据集中进行估计。在实验中,简单且手动调整的先验分布也可以产生合理的结果。由于等式(4)中的漫反射项使着色过程对法线方向敏感,因此这种多重照明约束将使模型规则化,学习产生自然着色的更准确的3D形状。训练生成模型遵循GAN范式,其中生成器以带有参数φ的鉴别器D以对抗方式进行训练。在训练期间,生成器通过相应的先验分布pz、中间样本潜在编码z、相机姿势和光照条件μ生成假图像。令l表示从数据分布pI中采样的真实图像。使用正则化不饱和GAN损失训练ShadeGAN模型:公式中的λ控制正则化强度。讨论式(2-4)中,研究团队通过体绘制得到A和n后进行着色。另一种方法是在每个局部空间点执行着色,其中:是局部法线。然后可以使用c(r(t),z)执行体积排序以获得最终像素颜色。在实践中,研究小组观察到该公式产生了次优结果。直观的原因是,在这个公式中,法线方向在每个局部点被归一化,忽略了它在物体表面附近往往更大。本文中使用的Lambertian阴影近似于真实的光照场景。虽然良好的正则化是对学习到的3D形状的改进,但它可能会在生成图像的分布与真实图像的分布之间引入额外的差距。为了补偿这种风险,可以选择根据光照条件调整预测的a,即a=a(r(t),d,μ,z)。在光照条件偏离实际数据分布的情况下,生成器可以学习调整a的值并缩小上述差距。3.3通过表面跟踪进行高效体绘制与NeRF类似,研究团队采用离散积分实现体绘制,通常需要沿相机射线采样数十个点,如图所示。本文还需要对式(3)中的生成器进行反向传播,得到各点的法线方向,大大增加了计算量。为了实现更高效的体绘制,一个自然的想法是利用空间稀疏性。通常,体绘制中的权重T(t,z)σ(r(t),z)在训练期间集中在物体表面位置。如果在渲染之前已知粗糙表面的位置,则可以对表面附近的点进行采样以节省计算量。对于静态场景,这种空间稀疏性存储在稀疏体素网格中,但这种技术不能直接应用于我们的生成模型,因为3D场景的底层编码会根据输入不断变化。为了在生成隐式模型中实现更高效的体积渲染,研究团队进一步提出了一种表面跟踪网络S,它学习模仿以潜在编码为条件的表面位置。特别是,体绘制自然地允许通过以与(2)中相同的方式定义的T(t,z)对物体表面进行深度估计。因此,给定相机姿势和潜在编码z,可以渲染完整的深度图。如上图(b)所示,使用表面跟踪网络进行模拟,该网络是一种轻量级的卷积神经网络,将z作为输入并输出深度图。深度模拟损失为:其中Prec是促进更好地捕捉表面边缘的感知损失。在训练期间,优化与生成器和鉴别器一起执行。每次在对潜在代码z和相机姿势进行采样后,都会获得深度图的初始猜测。然后,对于具有预测深度s的像素,可以在等式(2,3,6)中执行体绘制,具有近边界和远边界,即随着训练迭代i的增长而减小的体绘制间隔。具体来说,我们从一个大区间开始,然后减少到。随着图像的减少,用于渲染m的点数也相应减少。与生成器相比,高效表面跟踪网络的计算成本可以忽略不计,因为前者只需要一次前向传递来渲染图像,而后者将被查询H×W×m次。因此,m的减少将显着加快ShadeGAN的训练和推理速度。4.实验实验表明,ShadeGAN比以前的方法更准确地学习3D形状,同时允许明确控制光照条件。使用的数据集包括CelebA、BFM和CAT,它们都只包含不受约束的2DRGB图像。在模型结构方面,我们采用基于SIREN的MLP作为生成器和卷积神经网络作为鉴别器。对于光照条件的先验分布,使用Unsup3d估计真实数据的光照条件,然后拟合多元高斯分布作为先验。消融研究中还包括手工制作的先验分布。在所有实验中,除非另有说明,否则让前余弦颜色a取决于照明条件μ以及观察方向d。ComparisonwithBaselines将ShadeGAN与两个最先进的生成隐式模型(GRAF和pi-GAN)进行了比较。具体来说,图4包括合成图像及其相应的3D网格,这些网格是通过对体积密度σ执行行进立方体而获得的。虽然GRAF和pi-GAN可以合成具有可控姿势的图像,但它们学习的3D形状不准确且有噪声。相比之下,我们的方法不仅合成了逼真的3D一致图像,而且还学习了更准确的3D形状和表面法线,这证明了所提出的多重照明约束作为正则化的有效性。图5中包含更多合成图像及其相应的形状。除了更准确的3D形状外,ShadeGAN本质上知道反照率和漫反射阴影分量。如图所示,虽然并不完美,但ShadeGAN已经成功地以令人满意的质量分离阴影和反照率,因为这种分离是对多光照约束的自然解决方案。BFM数据集上学习的3D形状质量的定量评估。具体来说,使用每个生成隐式模型生成50k图像及其对应的深度图。来自每个模型的图像深度对用作训练数据来训练额外的卷积神经网络(CNN),该网络学习预测输入图像的深度图。然后,每个训练有素的CNN在BFM测试集上进行测试,并将其预测与地面真实深度图进行比较,作为学习3D形状质量的度量。本文报告了尺度不变深度误差(SIDE)和平均角偏差(MAD)指标。其中,ShadeGAN的表现明显优于GRAF和piGAN。ShadeGAN也优于其他先进的无监督3D形状学习方法,包括无监督和GAN2Shape,它们在无监督3D形状学习方面具有巨大潜力。在不同模型合成图像的FID分数上,ShadeGAN的FID分数在BFM和CelebA中略逊于piGAN。直观上,这是由近似着色(即朗伯着色)和真实光照之间的差距造成的,可以通过采用更逼真的着色模型和改进之前的光照来避免。AblationResearch研究团队进一步调查了ShadeGAN中几种设计选择的影响。首先,执行局部点特定的着色。如图所示,局部着色策略的结果明显比原来的策略差,说明考虑是有益的。为了验证所提出的高效体绘制技术的有效性,研究团队将其对图像质量和训练/推理时间的影响作为选项包括在内。据观察,高效的体绘制对性能影响不大,但ShadeGAN显着减少了训练和推理时间,分别减少了24%和48%。此外,通过表面跟踪网络预测的深度图和通过体积渲染获得的深度图在下图中可视化。结果表明,在不同的身份和相机姿态下,表面跟踪网络可以一致地预测非常接近真实表面位置的深度值,从而可以在不牺牲图像质量的情况下对预测表面附近的点进行采样进行渲染。光照感知图像合成由于ShadeGAN对着色过程进行建模,因此它旨在允许对光照条件进行明确控制。下图提供了这样一个光照感知的图像合成结果,其中ShadeGAN在不同的光照方向下生成了有希望的图像。在预测的a以光照条件μ为条件的情况下,a略有变化w.r.t.照明条件,例如在阴影太暗的区域,a更亮,最终图像更自然。我们还可以选择在等式4中添加一个镜面反射项(即BlinnPhong着色,其中h是视点与照明方向之间角度的平分线)以创建镜面反射高光效果。GANInversionShadeGAN还可以通过执行GAN反演来重建给定的目标图像。如下图所示,这种反演使我们能够获得图像的几个因素,包括3D形状、表面法线、近似反照率和阴影。此外,我们还可以通过改变视点和照明条件来进一步执行视图合成和重新照明。讨论ShadeGAN学习到的反照率由于使用了接近真实光照的Lambertian阴影而没有完全分离。我们的方法不考虑物体的空间变化材料特性。未来,研究团队打算合并更复杂的着色模型,以更好地理解孤立生成的反射场。5.结论本文提出的ShadeGAN是一种用于形状精确的3D感知图像合成的新型生成隐式模型。并且已经证实,ShadeGAN中显式光照建模实现的多重光照约束显着有助于从2D图像中学习准确的3D形状。ShadeGAN还可以在图像合成过程中控制照明条件,以实现自然的图像重新照明效果。为了降低计算成本,研究团队进一步设计了一个轻量级的表面跟踪网络,为生成隐式模型提供了一种高效的体积渲染技术,显着加快了训练和推理速度。