当前位置: 首页 > 科技观察

神经辐射场去除“神经”,训练速度提升100多倍,3D效果质量不降低

时间:2023-03-19 00:20:00 科技观察

2020年,加州大学伯克利分校、谷歌、美国加州大学研究人员加利福尼亚州圣地亚哥提出了一种名为“NeRF”的方法,将2D图像转换为3D模型,可以使用少量静态图像生成多视角逼真的3D图像。其改进模型NeRF-W(NeRFintheWild)也能适应充满光线变化和遮挡的户外环境,分分钟生成3D旅游景点。NeRF模型演示。NeRF-W模型演示。然而,这些惊人的效果需要大量的计算:每帧渲染需要30秒,模型需要一天的时间在单个GPU上进行训练。因此,后续的很多论文都在算力成本上做了改进,尤其是在渲染方面。但模型的训练成本并没有明显降低,单GPU训练仍需数小时,成为限制其落地的一大瓶颈。在一篇新论文中,加州大学伯克利分校的研究人员针对这个问题提出了一种名为Plenoxels的新方法。新研究表明,即使没有神经网络,从头开始训练辐射场也能达到NeRF生成质量,并将其优化速度提高两个数量级。论文链接:https://arxiv.org/pdf/2112.05131.pdf项目主页:https://alexyu.net/plenoxels/代码链接:https://github.com/sxyu/svox2他们提供了自定义的CUDA实现,利用模型的简单性来实现相当大的加速。在有界场景下,Plenoxels在单个TitanRTXGPU上的典型优化时间为11分钟,NeRF约为一天,前者实现了100倍以上的加速;在无界场景下,Plenoxels的优化时间约为27分钟,NeRF++在四天左右,前者实现了200多倍的提速。虽然Plenoxels实现并未针对快速渲染进行优化,但它可以以15帧/秒的交互速率渲染新视点。如果你想要更快的渲染速度,可以将优化后的Plenoxel模型转换为PlenOctree(AlexYu等人在ICCV2021论文中提出的新方法:https://alexyu.net/plenoctrees/)。具体来说,研究人员提出了一种基于视图相关稀疏体素网格的显式体素表示,无需任何神经网络。新模型渲染逼真的新视点,并在训练视图上使用可区分的渲染损失和变化正则化器对校准的2D照片执行端到端优化。他们将模型称为Plenoxel(全光体积元素),因为它由稀疏的体素网格组成,每个体素存储不透明度和球谐系数信息。这些系数被插值以在空间中连续模拟完整的全光函数。为了在单个GPU上实现高分辨率,我们修剪空体素并遵循从粗到精的优化策略。尽管核心模型是有界体素网格,但它们可以通过两种方式对无界场景进行建模:1)使用归一化设备坐标(用于前向场景);用网格周围的多球体图像对背景进行编码(适用于360°场景)。Plenoxel在前瞻性情景中的作用。Plenoxel在360°场景中的效果。这种方法表明,我们可以使用标准工具(包括数据表示、正向模型、正则化函数和优化器)从逆向问题中执行逼真的体素重建。这些组件中的每一个都可以非常简单,但仍能达到SOTA结果。实验结果表明,神经辐射场的关键要素不是神经网络,而是可微的体素渲染器。框架概述Plenoxel是一个稀疏体素网格,其中每个占用的体素角都存储标量不透明度σ和每个颜色通道的球谐系数向量。作者将这种特性称为Plenoxel。任意位置和观察方向的不透明度和颜色由存储在相邻体素处的三线性插值值确定,并评估适当观察方向的球谐系数。给定一组校准图像,直接使用训练射线上的渲染损失来优化模型。该模型的架构如下图2所示。上图2是稀疏Plenoxel模型框架的概念图。给定一组物体或场景的图像,研究人员使用每个体素的密度和球谐系数来重建:(a)稀疏体素(Plenoxel)网格。为了渲染光线,他们(b)通过相邻体素系数的三线性插值来计算每个采样点的颜色和不透明度。他们还使用(c)可区分体素渲染来整合这些样本的颜色和不透明度。然后可以(d)使用关于训练图像的标准MSE重建损失以及整体变化正则化器来优化体素系数。实验结果研究人员证明了该模型在合成有界场景、真实无界前向场景和真实无界360°场景上的有效性。他们将新模型的优化时间与之前的所有方法(包括实时渲染)进行了比较,发现新模型明显更快。定量比较结果如表2所示,视觉比较结果如图6、图7和图8所示。此外,即使在第一个epoch优化后,新方法也能在不到1.5分钟的时间内获得高质量的结果,如图5所示。