当前位置: 首页 > 科技观察

AI新科技亮相顶会:只需一张爆头就能生成逼真的3D人脸

时间:2023-03-12 16:39:37 科技观察

如果只有一张图片,如何打造逼真的人物数字化身?在2020年计算机视觉和模式识别(CVPR)会议期间,伦敦帝国理工学院和人工智能面部分析初创公司FaceSoft.io的研究人员介绍了一种“AvatarMe”技术,该技术可以重建逼真的3D半身像。更重要的是,它不仅可以从低分辨率目标生成真实的4Kx6K分辨率3D人脸,还可以进行详细的光反射。图|3D人脸重建与实时渲染效果(来源:GitHub)从视频会议、虚拟现实到视频游戏,渲染3D人脸的应用场景数不胜数,虽然无需AI形状也可以拟合几何,但需要更多的信息才能任意渲染人脸场景。为了提取这些信息,研究人员使用带有168个LED灯和9个单反相机的采样设备拍摄了200张人脸毛孔级反射图像,然后他们利用这些数据训练了一个人工智能模型GANFIT,该模型可以合成来自纹理的逼真面部贴图,同时优化渲染和输出之间的“身份匹配”。与其他生成对抗网络(GAN)类似,GANFIT是一个由两部分组成的模型:一个生成样本的生成器和一个试图将生成的样本与真实样本区分开来的鉴别器。生成器和鉴别器各自的能力相互补充,直到鉴别器无法区分真实示例和合成示例。此外,AvatarMe的另一个组件负责增强纹理的分辨率,一个单独的模块预测皮肤结构(如毛孔、皱纹或头发)中每个像素从被照亮的纹理中的反射率,甚至估计表面细节。(如细纹、疤痕和皮肤毛孔)。研究人员表示,在实验中,AvatarMe在最终渲染中没有产生伪影,并成功处理了太阳镜和遮挡等“极端”情况,即使在不同的环境中反射率也保持一致。两者都“真正”阐明了主题。图|不同场景下的自适应人脸光反射(来源:GitHub)3D人脸和几何纹理的重建是目前计算机视觉、图形学和机器学习交叉领域最热门的方向。本研究的重点工作一是三维可变形模型(3DMM)拟合方法的改进。将3DMM安装到“野外”输入图像并合成完整的UV纹理,同时优化渲染和输入之间的身份匹配。纹理被上采样8倍以合成合理的高频细节。研究人员随后使用图像变换网络照亮纹理并获得具有高频细节的漫反射反照率,使用单独的网络推断镜面反照率、漫反射法线和镜面法线。此外,网络在512x512块上进行训练,并在1536x1536块上执行推理。最后,将面部形状和一致推断的反照率传递给头部模型,从而在任何环境下提供实时渲染的外观。图|AvatarMe的基本方法框架(来源:GitHub)细节如何提升?核心是基于补丁的图像到图像的转换。从给定的输入图像(UV)中照明、取悦以及推断漫反射和镜面反射分量的任务可以表述为域适应问题。研究人员选择的模型是pix2pixHD,它在图像到图像的转换中展示了令人印象深刻的结果。为了实现皮肤的逼真渲染,研究人员分别对所需几何体的漫反射、镜面反照率和法线进行建模。因此,给定一个不受约束的人脸图像作为输入,他们可以推断出人脸的几何参数以及漫反射反照率(AD)、漫反射法线(ND)、镜面反照率(as)和镜面法线(NS)。图|a,图像输入;b、基础改造;c、超分辨率;d、令人愉悦;e、最终渲染图(来源:GitHub)这个细节优化过程还是有一些磕磕碰碰的。例如,为了训练算法模型,研究人员捕获的数据具有非常高的分辨率(超过4K),因此由于硬件限制(即使在32GBGPU上,它不能用于使用pix2pixHD进行“原样”训练原始格式不可能适合这样的高分辨率数据)。此外,pix2pixHD仅考虑纹理信息,无法利用形状法线和深度形式的几何细节来提高生成的漫反射和镜面反射分量的质量。因此,为了克服上述问题,研究人员将原始高分辨率数据分成512×512像素的小块进行训练。在推理过程中,由于网络是全卷积的,所以patches可以更大(比如1536×1536像素)。AvatarMe并非没有限制。这个限制就是美国科技公司现在呼吁的“种族歧视”问题。该论文提到,由于训练数据集不包含某些种族的受试者示例,因此在尝试重建肤色较深的人脸时效果不佳,并且由于所需数据与3DMM模型之间的对齐误差很小,因此重建镜面反照率和法线有时会显示出一些高频孔隙细节的轻微模糊。最后,面部重建的准确性与输入照片的质量密切相关,光线充足且分辨率较高的照片会产生更准确的结果。研究人员表示,在业内,这是第一种用任何肖像图像(包括黑白照片和手绘图)实现“可渲染”人脸的方法。有望逐步将以前需要手动设计的流程自动化。