得益于NeRF提供的可微分渲染,最近的3D生成模型在静态物体上取得了惊人的效果。然而,在人体这一更复杂、可变形的范畴中,3D生成仍然面临着很大的挑战。本文提出了一种有效的组合人类NeRF表示,无需使用超分辨率模型即可实现高分辨率(512x256)3D人类生成。EVA3D在四个大型人体数据集上大大超越了现有的解决方案,并且代码已经开源。论文名称:EVA3D:Compositional3DHumanGenerationfrom2DimageCollections论文地址:https://arxiv.org/abs/2210.04888项目主页:https://hongfz16.github.io/projects/EVA3D.html代码开源:https://github.com/hongfz16/EVA3DColab演示:https://colab.research.google.com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynbHugging人脸演示:https://huggingface.co/spaces/hongfz16/EVA3D背景使用了NeRF提供的可微分渲染算法,EG3D、StyleSDF等3D生成算法在静态物体类别的生成上取得了很好的效果。但是,与人脸或CAD模型等类别相比,人体在外观和几何形状上具有更大的复杂性,并且人体是可变形的,因此从2D图像中学习3D人体生成仍然是一项非常困难的任务。研究人员在该任务上进行了一些尝试,如ENARF-GAN、GNARF,但受限于低效的人类表达,无法实现高分辨率的生成,因此生成质量也很低。为了解决这个问题,本文提出了一种有效的组合3D人体NeRF表示,用于高分辨率(512x256)3D人体GAN训练和生成。下面介绍本文提出的人体NeRF表示,以及3D人体GAN训练框架。EfficientHumanNeRF是指本文提出的humanNeRF是基于参数化人体模型SMPL,提供了对人体姿势和形状的便捷控制。在进行NeRF建模时,如下图所示,本文将人体分为16个部分。每个部分对应一个用于局部建模的小型NeRF网络。在渲染每个部分时,我们只需要对局部的NeRF进行推理即可。这种稀疏渲染方式也能以低计算资源实现原生高分辨率渲染。比如渲染shape和action参数分别为人体时,先根据camera参数对light进行采样;光照上的采样点根据与SMPL模型的相对关系进行逆线性混合蒙皮,posed空间中的采样点被变换到规范空间中。然后计算出Canonical空间中的采样点属于一个或几个局部NeRF边界框,然后推断NeRF模型得到每个采样点对应的颜色和密度;当某个采样点落入多个局部NeRF的重叠区域时,将对每个NeRF模型进行推断,并用窗函数对多个结果进行插值;最后,这些信息将用于光的整合以获得最终的渲染。3DHumanGANFramework基于提出的高效人类NeRF表示,本文实现了3D人类GAN训练框架。在每次训练迭代中,我们首先从数据集中采样一个SMPL参数和相机参数,并随机生成一个高斯噪声z。利用本文提出的人体NeRF,本文可以将采样参数渲染成二维人体图片作为假样本。本文利用数据集中的真实样本进行GAN对抗训练。ExtremelyImbalancedDatasets二维人体数据集,如DeepFashion,通常是为二维视觉任务准备的,因此人体的姿势多样性非常有限。为了量化不平衡的程度,本文统计了DeepFashion中模特面部朝向的频率。如下图所示,橙色线表示DeepFashion中人脸朝向的分布。可以看出是极度不平衡的,这使得学习三维人体表征变得困难。为了缓解这个问题,我们提出了一种以人体姿态为导向的采样方法来拉平分布曲线,如下图中其他彩色线所示。这使得训练过程中的模型可以看到更多样化、更大角度的人体图片,从而有助于3D人体几何学的学习。我们对采样参数进行了实验分析。从下表可以看出,加入以人体姿势为导向的采样方式后,虽然图像质量(FID)会略有下降,但学习到的3D几何(Depth)会有明显提升。高质量的生成结果下图是EVA3D的部分生成结果。EVA3D可以对人体外观进行随机采样,可以控制渲染相机参数、人体姿态和体型。本文在DeepFashion、SHHQ、UBCFashion、AIST这四个大型人体数据集上进行了实验。本研究将最先进的静态3D对象生成算法EG3D与StyleSDF进行了比较。同时,研究人员还对比了专门针对3D人体生成的算法ENARF-GAN。在指标的选取上,本文综合考虑了渲染质量(FID/KID)、人体控制精度(PCK)和几何生成质量(Depth)的评价。如下图所示,本文在所有数据集和所有指标上都大大超越了之前的方案。应用潜力最后,本文还展示了EVA3D的一些应用潜力。首先,该研究测试了潜在空间中的插值。如下图所示,本文能够在两个3D人之间进行平滑的变化,中间结果保持高质量。此外,本文还对GAN反演进行了实验。研究人员使用了二维GAN反演中常用的算法PivotalTuningInversion。如下右图所示,这种方法可以较好地还原重建目标的外观,但几何部分丢失了很多细节。可见,3DGAN的反演仍然是一个非常具有挑战性的任务。结论本文提出了首个高清3D人体NeRF生成算法EVA3D,仅使用2D人体图像数据即可进行训练。EVA3D在多个大规模人类数据集上实现了最先进的性能,并显示出在下游任务上的应用潜力。EVA3D的训练和测试代码已经开源,欢迎大家试用!
