当前位置: 首页 > 科技观察

Meta与CMU联合推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染

时间:2023-03-12 18:19:55 科技观察

近日,Meta与卡内基梅隆大学提出的6自由度视频表示模型——HyperReel,或预示着一款新的VR“杀手级”应用即将诞生!所谓“六自由度视频”(6-DoF)简单来说就是超高清4D体验式播放。其中,用户可以完全“置身于”动态场景中,可以自由移动。而当他们任意改变头部位置(3DoF)和方向(3DoF)时,就会相应地生成相应的视图。论文地址:https://arxiv.org/abs/2301.02238与之前的工作相比,HyperReel最大的优势在于内存和计算效率,这两者对于便携式VR头戴设备来说都是至关重要的。并且仅使用香草PyTorch,HyperReel可以在单个NVIDIARTX3090上以每秒18帧的速度渲染百万像素分辨率。阅读版本太长:1.提出一个光照条件采样预测网络,可以实现高保真、高-高分辨率的帧率渲染,以及紧凑且节省内存的动态体积表示;2.6-DoF视频表示方式HyperReel结合了以上两个核心部分,可以在实时渲染百万像素分辨率的同时,实现速度、质量和内存的理想平衡;优于其他方法。该论文介绍了体积场景表示可以为静态场景提供逼真的视图合成,并构成现有6-DoF视频技术的基础。然而,驱动这些表示的体绘制程序需要在质量、绘制速度和内存效率之间进行仔细的权衡。现有方法有一个缺点——它们无法同时实现实时性能、小内存占用和高质量渲染,所有这些在具有挑战性的现实场景中都极为重要。为了解决这些问题,研究人员提出了HyperReel,一种基于NeRF技术(神经辐射场)的6-DoF视频表示方法。其中,HyperReel的两个核心部分是:1.光照条件下的采样预测网络,能够在高分辨率下进行高保真、高帧率渲染;2.紧凑且节省内存的动态体积表示。与其他方法相比,HyperReel的6-DoF视频管道不仅具有出色的视觉质量,而且对内存的要求也很小。同时,HyperReel可以在百万像素分辨率下实现每秒18帧的渲染速度,无需任何自定义CUDA代码。具体来说,HypeReel通过结合样本预测网络和基于关键帧的体积表示,在高渲染质量、速度和内存效率之间取得平衡。其中的样本预测网络不仅可以加速体积渲染,还可以提高渲染质量,特别是对于具有挑战性的视图依赖场景。在基于关键帧的体积表示方面,研究人员使用了TensoRF的扩展。这种方法可以紧凑地表示完整的视频序列,同时消耗与单个静态帧TensoRF大致相同的内存。实时演示下面我们来实时演示一下HypeReel在512x512像素分辨率下的动态和静态场景的渲染效果。值得注意的是,研究人员在Technicolor和Shiny场景中使用了较小的模型,因此渲染帧率大于40FPS。对于其余数据集,使用完整模型,但HypeReel仍然能够提供实时推理。TechnicolorShinyStanfordImmersiveDoNeRF实现方法为了实现HeperReel,首先要考虑的是优化静态视图合成的体积表示。像NeRF这样的体积表示对静态场景中3D空间中每个点的密度和外观进行建模。更具体地说,位置x和沿射线的方向通过函数映射到颜色和密度σ(x)。这里的可训练参数θ可以是神经网络权重,N维数组项,或者两者的组合。然后可以渲染静态场景的新视图,表示从o到的透射率。实际上,可以通过沿给定射线获取多个采样点然后使用数值求积来计算公式1:其中权重指定每个采样点的颜色对输出的贡献。体积渲染的网格示例在静态场景的HyperReel中,给定一组图像和相机姿势,训练目标是重建与每条光线相关的测量颜色。大多数场景由实体对象组成,实体对象的表面位于3D场景体积内的2D流形上。在这种情况下,只有一小部分采样点会影响每条光线的渲染颜色。因此,为了加快体绘制,研究人员希望只查询非零点的颜色和不透明度。如下图所示,研究人员使用前馈网络来预测一组样本位置。具体来说,使用样本预测网络,将光线映射到样本点以获得等式2中的体积渲染。在这里,研究人员使用Plucker的参数化来表征光。但这有一个问题:给网络太多的灵活性会对视图合成的质量产生负面影响。例如,如果(x1,...,xn)是一个完全任意的点,则渲染可能不会出现多视图一致。为了解决这个问题,研究人员选择使用样本预测网络来预测一组几何图元G1,...,Gn的参数,其中图元的参数可以根据输入光线而变化。要获得样本点,请将射线与每个图元相交。如图a所示,给定一条源自相机原点o并沿方向ω传播的输入光线,研究人员首先使用Plucker坐标重新参数化光线。如图b所示,网络将此射线作为一组几何基元{}(例如轴对齐平面和球体)和位移矢量{}的输入和输出参数。如图c所示,为了生成体积渲染的样本点{},研究人员计算了射线和几何基元之间的交点,并将位移矢量添加到结果中。预测几何图元的好处是可以平滑采样信号并便于插值。位移矢量为采样点提供了额外的灵活性,以更好地捕捉复杂的视线相关外观。如图d所示,最后,研究人员通过方程式2进行体积渲染,产生像素颜色,并根据相应的观察结果,对其进行监督训练。基于关键帧的动态体积通过上述方法,可以有效地对3D场景体积进行采样。如何表示音量?在静态情况下,研究人员使用了内存高效的张量辐射场(TensorRF)方法;在动态情况下,他们将TensoRF扩展到基于关键帧的动态体积表示。下图解释了从基于关键帧的表示中提取动态样本点表示的过程。如图1所示,首先,研究人员使用样本预测网络输出的速度{}将样本点{}及时转换为最近的关键帧。然后,如图2所示,研究人员查询时空纹理的外积,得到每个样本点的外观特征,然后通过公式10将其转换为颜色。通过这个过程,研究人员提取了每个样本的不透明度.结果与静态场景比较在这里,研究人员将HyperReel与现有的静态视图合成方法(包括NeRF、InstantNGP和三种基于采样网络的方法)进行了比较。DoNeRF数据集DoNeRF数据集包含六个合成序列,图像分辨率为800×800像素。如表1所示,HyperReel的方法在质量上优于所有基线,并在很大程度上提高了其他采样网络方案的性能。同时,HyperReel使用普通PyTorch实现,可以在单个RTX3090GPU上以6.5FPS(或Tiny模型为29FPS)渲染800×800像素图像。此外,与R2L的88层、256个隐藏单元的深度MLP相比,研究人员提出的6层、256个隐藏单元的网络加上TensoRF体积主干提供了更快的推理LLFF数据集LLFF数据集包含8个Real-具有1008×756像素图像的世界序列。如表1所示,HyperReel的方法优于DoNeRF、AdaNeRF、TermiNeRF和InstantNGP,但质量略低于NeRF。由于不正确的相机校准和输入视点的稀疏性,该数据集对于显式体积表示是一个巨大的挑战。动态场景对比Technicolor数据集Technicolor光场数据集包含由时间同步的4×4摄像机装置捕获的各种室内环境的视频,其中每个视频流中的每个图像都是2048×1088像素。研究人员在该数据集的五个序列(生日、法比恩、画家、剧院、火车)上以全图像分辨率比较了HyperReel和神经3D视频,每个序列长50帧。如表2所示,HyperReel的质量超过了Neural3DVideo,而每个序列的训练时间仅为1.5小时(而不是Neural3D的1000+小时),渲染速度更快。神经3D视频数据集神经3D视频数据集包含6个室内多视图视频序列,由20个摄像机以2704×2028像素的分辨率捕获。如表2所示,HyperReel优于该数据集上的所有基线方法,包括NeRFPlayer和StreamRF等近期作品。特别是,HyperReel在数量上超过NeRFPlayer约40倍,并且在质量上优于StreamRF,尽管它的Plenoxels-backbone方法(使用自定义CUDA内核来加速推理)渲染速度更快。此外,HyperReel每帧消耗的内存比StreamRF和NeRFPlayer少得多。GoogleImmersiveDatasetGoogleImmersive数据集包含各种室内和室外环境的光场视频。如表2所示,HyperReel在质量方面比NeRFPlayer高1dB,同时渲染速度更快。有点遗憾的是,HyperReel还没有达到VR所需的渲染速度(最好是72FPS,立体声)。然而,由于该方法是在vanillaPyTorch中实现的,因此可以通过自定义CUDA内核等工作进一步优化性能。作者介绍了论文的第一作者BenjaminAttal,他目前正在卡内基梅隆机器人研究所攻读博士学位。研究兴趣包括虚拟现实、计算成像和显示。