当前位置: 首页 > 科技观察

AIGC发展太快了!Meta发布首款基于文本的4D视频合成器:3D游戏建模师也下岗了?

时间:2023-03-12 00:50:03 科技观察

AI生成模型在过去一段时间取得了长足的进步。就图像领域而言,用户可以通过输入自然语言提示生成图像(如DALL-E2、StableDiffusion),或者在时间维度上进行Scaleup生成连续视频(如Phenaki),或者在时间维度上进行扩展直接生成3D模型的空间维度(如Dreamfusion)。但到目前为止,这些任务仍处于孤立研究状态,彼此之间没有技术重叠。最近,MetaAI研究人员结合视频和3D生成模型的优点,提出了一种新的文本转4D(3D+时间)生成系统MAV3D(MakeA-Video3D),以自然语言描述为输入,输出一个动态的A可以从任何视点渲染的三维场景表示。论文链接:https://arxiv.org/abs/2301.11280项目链接:https://make-a-video3d.github.io/MAV3D也是第一个可以根据给定的文本描述生成3D动态场景的模型。所提出的方法使用4D动态神经辐射场(NeRF)通过询问基于文本到视频(T2V)扩散的模型来优化场景表示、密度和运动一致性。从提供的文本生成的动态视频输出可以从任何摄像机位置和角度的View获得,并且可以合成到任何3D环境中。该方法可用于为视频游戏、视觉效果或增强和虚拟现实生成3D资产。不同于图像生成和视频生成任务,网上有大量的字幕数据可供训练,但连现成的4D模型集都没有。corgiballMAV3D的训练不需要任何3D或4D数据,T2V模型只需要在text-imagepairs和无标签视频上进行训练。在实验部分,研究人员进行了全面的定量和定性实验来证明该方法的有效性,显着提高了先前建立的内部基线。文本到4D动态场景由于缺乏训练数据,研究人员构思了几种解决此任务的想法。一种方法可能是找到预训练的2D视频生成器并从生成的视频中提取4D重建。然而,从视频中重建可变形物体的形状仍然是一个非常具有挑战性的问题,即Non-RigidStructurefromMotion(NRSfM)。鉴于对象的多个同时视点,任务变得更容易。虽然多摄像头设置在真实数据中很少见,但研究人员认为,现有的视频生成器隐式地对生成场景的任意视点进行建模。也就是说,视频生成器可以用作“统计”多相机设置来重建可变形物体的几何形状和光度测量。MAV3D算法通过优化动态神经辐射场(NeRF)并将输入文本解码为视频,对物体周围的随机视点进行采样来实现这一点。直接使用视频生成器优化动态NeRF并没有取得令人满意的结果,在实现过程中还有几个困难需要克服:1.需要一个有效的、端到端可学习的动态3D场景表示;2、监督学习的数据源,因为目前还没有大规模(文本,4D)的pair数据集可供学习;3、输出的分辨率需要在空间和时间维度上进行扩展,因为4D输出需要大量的内存和计算能力;MAV3D模型MAV3D模型基于最近关于神经辐射场(NeRF)的工作,结合了高效(静态)NeRF和动态NeRF方面的努力,并将4D场景表示为六个多分辨率特征平面的集合。为了在没有相应(文本,4D)数据的情况下监督此类表示,研究人员提出了一种用于动态场景渲染的多阶段训练管道,并证明了每个组件在获得高质量结果中的重要性。一个关键的观察结果是,使用文本到视频(T2V)模型的分数蒸馏采样(SDS)直接优化动态场景会导致视觉伪影和次优收敛。因此,研究人员选择首先使用文本到图像(T2I)模型将静态3D场景与文本提示相匹配,然后动态增强3D场景模型。此外,模型中引入了一个新的时间感知SDS损失和运动正则化项,通过实验证明这对逼真和具有挑战性的运动至关重要。并且通过额外的时间感知超分辨率微调阶段将其扩展到更高分辨率的输出。最后,利用T2V模型的超分辨率模块的SDS获取高分辨率梯度信息,用于3D场景模型的监督学习,从而提高其视觉保真度,并能够在推理过程中采样更高分辨率的输出。实验部分评价指标使用CLIPR-Precision对生成视频进行评价,可用于衡量文本与生成场景的一致性,能够反映输入提示从渲染帧中的检索准确率。研究人员使用CLIP的ViT-B/32变体并在不同的视图和时间步长处提取帧。除此之外,还使用了四个定性指标,通过询问人工注释者他们在两个生成的视频之间的偏好,可以得出(i)视频质量;(ii)忠实于文本提示;(iii)运动量和(iv)运动的真实性。Text-to-4Dcomparison由于之前没有将文本转换为4D的方法,研究人员建立了三个基于T2V生成方法的baseline进行比较。2D帧序列将使用三种不同的方法将序列转换为3D场景表示。第一个序列由单次神经场景渲染器(Point-E)获得;第二个是通过将pixelNeRF独立应用于每个帧生成的;第三个是应用D-NeRF结合COLMAP提取的相机位置。可以看出,该方法在客观R精度指标上优于基线模型,并且在所有指标上都被人工注释者评为更高。此外,研究人员还探索了该方法在不同相机视角下的性能。消融实验1.人类注释者更喜欢在没有使用与MAV3D(第3阶段)相同的步数进行场景超分辨率(SR)微调的情况下训练的模型的质量、文本对齐和运动。选择使用SR训练的模型。此外,超分辨率微调提高了渲染视频的质量,使高分辨率视频具有更精细的细节和更少的噪音。2.没有预训练:直接优化动态场景(没有静态场景预训练)的步骤与MAV3D相同,结果是场景质量低得多或收敛性差:在73%和65%的情况下,使用静态预训练模型在视频质量和逼真运动方面更受欢迎。