推理成本降低48倍!1GPU可以让静态图像动起来自伯克利和谷歌联合打造的NeRF诞生以来,静态和变化图像的魔力就风靡全球。但是,如果要依靠AI来简化3D动态效果的制作,算力成本是不小的:以NeRF为例,如果要实现1440×1600像素的实时渲染,90HzVR头盔,你需要37petaFLOPS(每秒10^15次浮点运算)——这在当前的GPU上根本不可能实现。如何降低计算复杂度?现在,奥地利格拉茨科技大学和Facebook的研究人员想出了一个绝招:引入真实的深度信息。仅此而已,很快,推理成本最多可降低48倍,仅需1块GPU即可实现每秒20帧的交互渲染。画质不受影响,甚至还可以提升:下面说说具体的技巧吧。NeRFbasedonthedeeppredictionnetwork首先需要说明的是,NeRF即神经辐射场法,是通过沿相机光线采样5D坐标来实现图像合成。也就是说,在NeRF的渲染过程中,需要对每条光线进行网络评估,输出对应的颜色、体积密度值等信息。这也是NeRF在实时渲染应用中开销太大的主要原因。现在,格拉茨科技大学和Facebook的研究人员发现,通过引入真实深度信息并只考虑物体表面周围的重要样本,可以大大减少每条观察光线(viewray)所需的样本数量,而不会影响图像质量.基于此,他们提出了DONeRF。DONeRF由两个网络组成,一个是SamplingOracleNetwork,它使用分类法来预测沿视线的最佳采样位置。具体来说,这个深度预言机网络通过离散化沿射线的空间并预测沿射线的采样概率来预测每条射线上的多个潜在采样对象。如下图所示,3个颜色通道编码了沿射线的3个最高采样概率。灰度值表示可能只需要对其中一个表面进行采样,而颜色值表示这些采样需要在深度上进行扩展。第二个是着色网络,它使用类似NeRF的光线行进累积方法来提供RGBA输出。为了消除输入中的歧义,研究人员还将光线转换为均匀空间,并使用非线性采样来跟踪邻近区域。此外,在两个网络之间,研究人员扭曲了局部采样,以便将着色网络的高频预测指向前景。本文还介绍了视图单元格的概念。视单元被定义为具有主方向和最大视角的边界框。简而言之,这个边界框捕获了来自框内和特定旋转范围内的所有视图光线。利用这种方法可以对大场景进行分割,解决NeRF不能应用于大场景的问题。此外,较小的视单元会减少场景的可见内容,从而有可能进一步提高成像质量。比较结果那么,DONeRF与其前身NeRF相比快多少呢?让我们看看比较结果。在类似的质量下,NeRF总共使用了256个样本。而DONeRF只用了4个样本,就可以实现20-48倍的速度提升。而且在成像细节方面,DONeRF的图像边缘更加清晰。研究人员还指出,在16个样本中,DONeRF在峰值信噪比(PSNR)方面几乎在所有场景中都优于NeRF。传送门论文地址:https://arxiv.org/abs/2103.03231项目地址:https://depthoraclenerf.github.io/
