Meta与CMU联合推出VR史诗级升级！最新HyperReel模型实现高保真6自由度视频渲染

时间：2023-03-12 18:19:55 科技观察

近日，Meta与卡内基梅隆大学提出的6自由度视频表示模型——HyperReel，或预示着一款新的VR“杀手级”应用即将诞生！所谓“六自由度视频”（6-DoF）简单来说就是超高清4D体验式播放。其中，用户可以完全“置身于”动态场景中，可以自由移动。而当他们任意改变头部位置（3DoF）和方向（3DoF）时，就会相应地生成相应的视图。论文地址：https://arxiv.org/abs/2301.02238与之前的工作相比，HyperReel最大的优势在于内存和计算效率，这两者对于便携式VR头戴设备来说都是至关重要的。并且仅使用香草PyTorch，HyperReel可以在单个NVIDIARTX3090上以每秒18帧的速度渲染百万像素分辨率。阅读版本太长：1.提出一个光照条件采样预测网络，可以实现高保真、高-高分辨率的帧率渲染，以及紧凑且节省内存的动态体积表示；2.6-DoF视频表示方式HyperReel结合了以上两个核心部分，可以在实时渲染百万像素分辨率的同时，实现速度、质量和内存的理想平衡；优于其他方法。该论文介绍了体积场景表示可以为静态场景提供逼真的视图合成，并构成现有6-DoF视频技术的基础。然而，驱动这些表示的体绘制程序需要在质量、绘制速度和内存效率之间进行仔细的权衡。现有方法有一个缺点——它们无法同时实现实时性能、小内存占用和高质量渲染，所有这些在具有挑战性的现实场景中都极为重要。为了解决这些问题，研究人员提出了HyperReel，一种基于NeRF技术（神经辐射场）的6-DoF视频表示方法。其中，HyperReel的两个核心部分是：1.光照条件下的采样预测网络，能够在高分辨率下进行高保真、高帧率渲染；2.紧凑且节省内存的动态体积表示。与其他方法相比，HyperReel的6-DoF视频管道不仅具有出色的视觉质量，而且对内存的要求也很小。同时，HyperReel可以在百万像素分辨率下实现每秒18帧的渲染速度，无需任何自定义CUDA代码。具体来说，HypeReel通过结合样本预测网络和基于关键帧的体积表示，在高渲染质量、速度和内存效率之间取得平衡。其中的样本预测网络不仅可以加速体积渲染，还可以提高渲染质量，特别是对于具有挑战性的视图依赖场景。在基于关键帧的体积表示方面，研究人员使用了TensoRF的扩展。这种方法可以紧凑地表示完整的视频序列，同时消耗与单个静态帧TensoRF大致相同的内存。实时演示下面我们来实时演示一下HypeReel在512x512像素分辨率下的动态和静态场景的渲染效果。值得注意的是，研究人员在Technicolor和Shiny场景中使用了较小的模型，因此渲染帧率大于40FPS。对于其余数据集，使用完整模型，但HypeReel仍然能够提供实时推理。TechnicolorShinyStanfordImmersiveDoNeRF实现方法为了实现HeperReel，首先要考虑的是优化静态视图合成的体积表示。像NeRF这样的体积表示对静态场景中3D空间中每个点的密度和外观进行建模。更具体地说，位置x和沿射线的方向通过函数映射到颜色和密度σ(x)。这里的可训练参数θ可以是神经网络权重，N维数组项，或者两者的组合。然后可以渲染静态场景的新视图，表示从o到的透射率。实际上，可以通过沿给定射线获取多个采样点然后使用数值求积来计算公式1：其中权重指定每个采样点的颜色对输出的贡献。体积渲染的网格示例在静态场景的HyperReel中，给定一组图像和相机姿势，训练目标是重建与每条光线相关的测量颜色。大多数场景由实体对象组成，实体对象的表面位于3D场景体积内的2D流形上。在这种情况下，只有一小部分采样点会影响每条光线的渲染颜色。因此，为了加快体绘制，研究人员希望只查询非零点的颜色和不透明度。如下图所示，研究人员使用前馈网络来预测一组样本位置。具体来说，使用样本预测网络，将光线映射到样本点以获得等式2中的体积渲染。在这里，研究人员使用Plucker的参数化来表征光。但这有一个问题：给网络太多的灵活性会对视图合成的质量产生负面影响。例如，如果(x1,...,xn)是一个完全任意的点，则渲染可能不会出现多视图一致。为了解决这个问题，研究人员选择使用样本预测网络来预测一组几何图元G1,...,Gn的参数，其中图元的参数可以根据输入光线而变化。要获得样本点，请将射线与每个图元相交。如图a所示，给定一条源自相机原点o并沿方向ω传播的输入光线，研究人员首先使用Plucker坐标重新参数化光线。如图b所示，网络将此射线作为一组几何基元{}（例如轴对齐平面和球体）和位移矢量{}的输入和输出参数。如图c所示，为了生成体积渲染的样本点{}，研究人员计算了射线和几何基元之间的交点，并将位移矢量添加到结果中。预测几何图元的好处是可以平滑采样信号并便于插值。位移矢量为采样点提供了额外的灵活性，以更好地捕捉复杂的视线相关外观。如图d所示，最后，研究人员通过方程式2进行体积渲染，产生像素颜色，并根据相应的观察结果，对其进行监督训练。基于关键帧的动态体积通过上述方法，可以有效地对3D场景体积进行采样。如何表示音量？在静态情况下，研究人员使用了内存高效的张量辐射场（TensorRF）方法；在动态情况下，他们将TensoRF扩展到基于关键帧的动态体积表示。下图解释了从基于关键帧的表示中提取动态样本点表示的过程。如图1所示，首先，研究人员使用样本预测网络输出的速度{}将样本点{}及时转换为最近的关键帧。然后，如图2所示，研究人员查询时空纹理的外积，得到每个样本点的外观特征，然后通过公式10将其转换为颜色。通过这个过程，研究人员提取了每个样本的不透明度.结果与静态场景比较在这里，研究人员将HyperReel与现有的静态视图合成方法（包括NeRF、InstantNGP和三种基于采样网络的方法）进行了比较。DoNeRF数据集DoNeRF数据集包含六个合成序列，图像分辨率为800×800像素。如表1所示，HyperReel的方法在质量上优于所有基线，并在很大程度上提高了其他采样网络方案的性能。同时，HyperReel使用普通PyTorch实现，可以在单个RTX3090GPU上以6.5FPS（或Tiny模型为29FPS）渲染800×800像素图像。此外，与R2L的88层、256个隐藏单元的深度MLP相比，研究人员提出的6层、256个隐藏单元的网络加上TensoRF体积主干提供了更快的推理LLFF数据集LLFF数据集包含8个Real-具有1008×756像素图像的世界序列。如表1所示，HyperReel的方法优于DoNeRF、AdaNeRF、TermiNeRF和InstantNGP，但质量略低于NeRF。由于不正确的相机校准和输入视点的稀疏性，该数据集对于显式体积表示是一个巨大的挑战。动态场景对比Technicolor数据集Technicolor光场数据集包含由时间同步的4×4摄像机装置捕获的各种室内环境的视频，其中每个视频流中的每个图像都是2048×1088像素。研究人员在该数据集的五个序列（生日、法比恩、画家、剧院、火车）上以全图像分辨率比较了HyperReel和神经3D视频，每个序列长50帧。如表2所示，HyperReel的质量超过了Neural3DVideo，而每个序列的训练时间仅为1.5小时（而不是Neural3D的1000+小时），渲染速度更快。神经3D视频数据集神经3D视频数据集包含6个室内多视图视频序列，由20个摄像机以2704×2028像素的分辨率捕获。如表2所示，HyperReel优于该数据集上的所有基线方法，包括NeRFPlayer和StreamRF等近期作品。特别是，HyperReel在数量上超过NeRFPlayer约40倍，并且在质量上优于StreamRF，尽管它的Plenoxels-backbone方法（使用自定义CUDA内核来加速推理）渲染速度更快。此外，HyperReel每帧消耗的内存比StreamRF和NeRFPlayer少得多。GoogleImmersiveDatasetGoogleImmersive数据集包含各种室内和室外环境的光场视频。如表2所示，HyperReel在质量方面比NeRFPlayer高1dB，同时渲染速度更快。有点遗憾的是，HyperReel还没有达到VR所需的渲染速度（最好是72FPS，立体声）。然而，由于该方法是在vanillaPyTorch中实现的，因此可以通过自定义CUDA内核等工作进一步优化性能。作者介绍了论文的第一作者BenjaminAttal，他目前正在卡内基梅隆机器人研究所攻读博士学位。研究兴趣包括虚拟现实、计算成像和显示。

上一篇：Ubuntu18.10（CosmicCuttlefish）正式发布，快来看看有什么新进展

下一篇：HarmonyOS编译烧录环境单独部署ForMac（含命令集）

Meta与CMU联合推出VR史诗级升级！最新HyperReel模型实现高保真6自由度视频渲染相关文章