本文经AI新媒体量子位授权(公众号ID:QbitAI)转载,转载请联系出处.得到这样一张人脸3D建模需要多少步?在数据收集阶段,答案是:一部手机+3.5分钟。没错,仅仅3.5分钟的数据就足以生成一个高保真、可驱动的真实3D人脸头像。这项研究来自MetaRealityLabs,这是扎克伯格Metaverse项目的核心。该论文已被SIGGRAPH2022接收。作者提到这种方法适用于VR应用。也就是说,在VR的世界里,你以后可能不用卡通脸登台了。反而方便在“真身”认识胖友。方法原理实现该结果的方法框架如下图所示:具体分为三部分。首先,需要使用一个大型的多视角人脸数据集来训练一个超级网络,它可以通过神经网络解码器生成个人头像参数。数据集中的人脸由多视角抓拍系统采集,包括255名不同年龄、性别和种族的参与者的人脸图像数据。△左边是图像采集装置;右边是收集的脸。这款用于捕捉3D人脸的巨型设备是Meta于2019年开发的。它配备了171个高分辨率摄像头,每秒可以记录180GB的数据。采集时间约1小时。值得一提的是,在这个超级网络中,解码器的基本构建块是带有偏置图的卷积上采样层。这些偏置贴图将用于生成体积单元,然后用于通过光线追踪渲染头像。此外,解码器结构能够将注视与其他面部活动区分开来,这在VR应用程序中意味着更直接地使用眼动追踪系统。其次,它是轻量级的面部表情捕捉。在这项研究中,捕捉人脸所需的只是一部带有深度摄像头的智能手机。在实验中,研究人员使用的是iPhone12。采集过程是这样的:对采集到的数据进行如下处理:获取每一帧人脸图像中的几何形状和纹理;对输入的RGB图像进行人脸特征点检测和人像分割;拟合模板网格和变形以匹配检测到的面部特征、分割轮廓和深度图;解包每帧图像的纹理,然后聚合得到完整的人脸纹理。在进一步完善模型的过程中,需要收集65种特定表情:最后,通过这种方法输出的3D人脸头像不仅可以高度匹配用户的外貌,还可以通过全局表情空间进一步驱动和控制它.研究人员表示,整个采集过程耗时约3.5分钟。但需要注意的是,建模过程不是实时的,数据处理需要数小时。实验结果说了这么多,到底有什么效果,还是来看看实验结果吧。与Pinscreen提出的“从照片构建3D数字化身”(CVPR2021)的方法相比,该方法可以生成更逼真的人脸模型。与海德堡大学、慕尼黑工业大学、马克斯普朗克研究所等研究机构的文章NeuralHeadAvatarsfromMonocularRGBVideos中提出的方法相比,该方法可以产生更高保真度的结果。不过笔者也指出了这种方法的局限性:hold不住长头发和眼镜,而且容易出现伪影。另外,这种方法对光照条件也有一定的要求。
