当前位置: 首页 > 科技观察

首款3D人像视频生成模型来了:只需要一张2D人像,还可以改变眨眼和嘴型

时间:2023-03-20 19:51:26 科技观察

只需要一张普通照片,就可以合成全角度动态3D视频。眨眼、动嘴都是小case~AIGC最近火了,3D人像模型生成在这里也没闲着。诸如StyleNerf、StyleSDF、EG3D等方法相继诞生。但到目前为止,这个生成模型还停留在单帧人像上。近日,新加坡国立大学(NUS)和字节跳动的研究人员在静态3D模型的基础上提出了第一个3D人像视频生成模型:PV3D(3DmodelforPortraitVideogeneration)。PV3D的训练继承了3DGAN模型的优点,即不需要动态3D数据监督,只需要在足够数量的单视角2D视频数据上进行训练即可。生成框架将人像和动作解耦,并根据视频时间戳生成各自的3D表示,允许从任何角度渲染视频。长视频也可以挑战:3D动态人像生成PV3D从独立的高斯分布中采样随机噪声来表示外观和运动,外观噪声生成视频的主要内容,控制人像和面部各部位的ID,以及运动噪音与视频相匹配帧的时间戳控制当前帧的动作。为了保证生成内容的真实性和外观与动作的解耦,PV3D训练了两个独立的判别器分别判断外观和动作的合理性。该方法可以生成随机人像视频和相应的高质量动态几何表面,从而可以从任何角度渲染视频。同时,该方法可以支持静态人像驱动、人像视频重构、人像运动修改等下游应用任务。所有结果都可以保持高度的多视图一致性。主流的3DGAN模型都是脱胎于StyleGAN结构。因此,这些模型会首先将采样的噪声映射到一个高维的中间潜码(intermidatelatentcode)。已有大量研究表明,这种结构的隐含空间包含丰富的语义信息,可以用来控制生成图像的内容。因此,最直接的扩展方式是使用预训练的单帧3DGAN模型,通过学习一个额外的在隐空间中进行推理的时间模型,对生成的内容进行合理的改动,从而生成3D人像视频。然而,这种方法的缺点是图像生成器和时间推理模型是在不同阶段进行优化的,因此很难在最终视频中保持时间一致性。另一种主流的视频生成模型采用稀疏训练,直接在训练阶段随机生成视频中的少量帧,利用几帧的时间戳对运动信息进行编码,进一步改变中间隐式编码优化完整生成在一次装置。然而,这种方法包括隐式空间中的所有时序信息,导致最终模型的多样性差和生成质量低。与上述方法不同的是,PV3D在原有GAN模型的基础上,在特定尺度的生成模块中插入了运动信息的编码层。这些编码层独立地将控制运动的噪声映射到隐式编码中,并使用调制卷积来操纵外观特征。然后将经过处理的特征与原始特征融合,以提高生成视频的时间一致性和运动多样性。此外,这项工作还研究了以下问题:如何在视频生成任务中有效利用渲染的视点先验信息进行3D视频生成,以及如何设计合理的外观和运动鉴别器。PV3D模型基于最新的静态3DGAN模型EG3D。开发的EG3D使用高效的3D表示Tri-plane来实现图像生成。在训练阶段,PV3D采用稀疏训练策略,对一段视频采样两个噪声、两个时间戳和对应的摄像机视角。相应地,模型生成两帧对应的3D表示进行渲染,得到粗略的结果。然后使用超分辨率模块对图像进行上采样。PV3D设计了两个独立的判别器来监督网络的学习,其中视频判别器会对两帧的摄像机视角和时间间隔进行编码,判断生成结果的合理性。实验部分评估指标研究人员使用FVD评估生成视频的质量。此外,为了评价多视角的一致性和3D几何结构的好坏,研究人员将3DGAN工作中常用的评价指标(生成人像的ID一致性、Chamfer距离、多视角重投影误差)扩展到视频任务。.与Baseline的比较研究人员首先采用同期的3D视频生成工作3DVidGen作为baseline。此外,研究人员还基于SOTA单帧3DGAN(EG3D和StyleNerf)和2D视频生成模型构建了三个基线模型。在3个公共数据集(VoxCeleb、CelebV-HQ、TalkingHead-1KH)上的实验结果表明,PV3D在生成视频的多样性、3D几何的质量和多视图的一致性方面优于基线模型。AblationExperiment研究人员对PV3D各部分的设计进行了消融实验,如:运动信息的编码和注入位置、运动信息的插入方式、摄像机角度的采样策略、视频鉴别器的设计等。团队介绍目前,该论文已被ICLR2023接收。作者团队由ShowLab、新加坡国立大学和字节跳动组成。论文地址:https://openreview.net/pdf?id=o3yygm3lnzS项目主页:https://showlab.github.io/pv3d/