有了深度学习,计算机图形学产生了很多新的领域。神经渲染(NeuralRendering)技术是利用各种深度神经网络进行图像合成。通过自动化流程,可以为从业者节省大量时间和精力。例如,给定从不同角度拍摄的几张2D图像,神经渲染模型可以在没有任何人工干预的情况下生成3D模型。在真实场景中,你可能会有一堆手工制作的照片。如果用传统的方式搭建3D模型,工作量很大,想想都觉得头秃。神经渲染技术可以很容易地将这些模型输入计算机,让机器了解这些照片中物体在三维空间中的实际形状和物理状态。对于人类来说,这个任务可以说是非常容易的,因为人眼了解真实世界和图像的深度,但对于只能看到像素的计算机来说,神经渲染模型的设计还是很有挑战性的。.除了拍手,游戏从业者还可以利用神经渲染技术,简单地对一些物体进行拍照,合成3D模型,进而打造出完美的游戏场景。但是,如果模型只是看起来准确,形状更贴合照片,这是远远不够的,因为一旦将合成的物体放到新的场景中,由于光影的差异,合成的模型就会显得不对放在新的环境中,所以一下子就会“露馅”。针对这一问题,来自SnapChat和南加州大学的研究人员提出了一种新模型NeROIC,可以解决从图像创建虚拟物体带来的光照和真实感问题。论文地址:https://arxiv.org/pdf/2201.02533.pdf新模型基于广泛应用于重建的神经辐射场,如NeRF等模型。但神经辐射场需要在相同的理想条件下进行完美建模,不符合真实场景的需要。研究人员从NeRF模型入手进行改进。NeRF神经网络的训练输入是一张图像,用于猜测每个像素的颜色、不透明度和辐照度,猜测物体中缺失像素的小部分在二维图像中没有出现。但是这种方法对于大的缺失部分或不同光照条件下没有用,因为它只能从输入图像进行插值。因此,新模型需要更多信息来推断和假设某个地方应该有什么,或者这些像素在这种光照下应该如何,等等。很多方法都是基于NeRF来解决这个问题,但是新的模型总是需要用户提供更多的输入条件,不符合实际场景的需要,而且很多时候用户并没有清除数据,尤其是当其他人想要建立一个好的数据集来训练模型,就更难了。总的来说,以前的类NeRF模型并不能真正理解物体,也不能理解它们所处的环境。所以真正要解决的问题又回到了照明问题上。研究人员的目标是在在线图像中使用这种新的模型架构,即具有不同光线、相机、环境和姿势的图像,新模型应该能够处理,这也是NeRF难以获得的真实性.除了对象本身的图像之外,他们唯一需要的是粗略的前景分割器和相机参数的估计,这两者都可以通过其他可用模型获得。前景分割基本上只是一个掩码,告诉模型用户感兴趣的对象在图像上的位置。新模型的不同之处在于它们将对象的渲染与输入图像中的环境照明分开,将这两个任务分开并分两个阶段进行。首先,(a)网络获取物体的几何形状,这是与NeRF最相似的部分,本文称之为GeometryNetwork。它结合输入图像、分割掩码和相机参数估计来构建辐射场,并找到每个像素的密度和颜色的猜测结果。整体过程与NeRF基本相同,但新模型需要适应输入图像中的不同光照。健康)状况。这种差异源于模型中的两个分支,它们允许模型将静态内容与不断变化的参数(例如相机或阴影)分开,从而使模型能够接受如何正确地将静态内容与其他不需要的参数(例如光照)分开的训练来,但仅这些都不能完美还原模型的空间结构。在(b)中,研究人员从这个学习到的密度场估计表面法线作为物体的形状纹理。换句话说,(a)中产生的结果可以帮助发现物体对光的反应。在此阶段,可以找到对象的无偏材料属性,或者可以使用带有Sobel核的3D卷积来获得属性的估计值。整个过程基本上是一个过滤器,可以在三维空间中找到所有物体边缘,并确定边缘的锐度,可以提供物体不同纹理和形状的基本信息。阶段(c)是调整模型学习的几何形状并优化刚刚使用此渲染网络生成的法线。它还包含两个分支,一个是材质,一个是光照。他们将使用球谐函数来表示光照模型并在训练期间优化它们的系数。研究人员在论文中解释说,这里可以使用球谐函数来表示定义在球体上的一组基本函数,而定义在球体表面的每个函数都可以写成这些球谐函数的和。这种技术通常用于计算3D模型的光照。这种方法以相对较小的开销产生高度逼真的阴影和阴影。简而言之,它会简单地减少需要估计的参数数量,但保留相同数量的信息。因此,本文提出的新模型不是从头开始学习如何为整个物体渲染适当的光照,而是学习正确的系数来估计每个像素表面的光照,从而将问题减少到几个参数。另一个分支被训练来细化物体的表面法线,遵循同样的技巧,使用标准的PhongBRDF将根据几个参数找到物体的材料属性模型。最后合并渲染和照明分支以预测每个像素的最终颜色。文章的实验部分与NeRF模型进行了对比,评价指标为峰值信噪比(PSNR)和结构相似性指标测量(SSIM)的平均得分。考虑到测试图像的光照条件未知,研究人员从同一场景中的另一张训练图像中选取光照参数(嵌入向量或SH系数),并冻结网络,并使用随机梯度下降优化器来优化光照参数。1000步优化。从实验结果可以看出,新模型比NeRF有相当大的优势,而且在实际效果中,NeRF产生的结果更一致、更平滑。文章第一作者为南加州大学博士生匡正飞。他的主要研究领域包括神经渲染、3D重建、人体数字化和动画以及基于物理的模拟。2019年毕业于清华大学。
