当前位置: 首页 > 科技观察

有望取代Deepfake?揭秘今年最火的NeRF技术到底有多厉害

时间:2023-03-21 01:46:22 科技观察

什么,你还不知道NeRF?NeRF作为今年计算机视觉领域最火的AI技术,应用广泛,前景广阔。B站的小伙伴们也算是在这项技术上玩出了新花样。那么,NeRF到底是什么?NeRF(NeuralRadianceFields)是2020年ECCV大会最佳论文中首次提出的概念,将隐式表达推向了一个新的高度,仅使用2D姿态图像作为监督来表示复杂的3D场景。一石激起千层浪。此后,NeRF发展迅速,被应用到“新视点合成、3D重建”等多个技术方向。NeRF输入具有姿势的稀疏多角度图像来训练神经辐射场模型。根据这个模型,可以渲染任何视角的清晰照片,如下图所示。也可以简单概括为使用MLP隐式学习3D场景。网友自然会将NeRF与同样流行的Deepfake进行比较。MetaPhysics最近发表的一篇文章盘点了NeRF的进化历史、挑战和优势,并预测NeRF最终将取代Deepfake。关于deepfake技术最受关注的话题,大多是指自2017年deepfakes进入公众视野以来开始流行的两个开源软件包:DeepFaceLab(DFL)和FaceSwap。尽管这两个包都有庞大的用户群和活跃的开发者社区,但这两个项目都没有明显偏离GitHub代码。当然,DFL和FaceSwap的开发者也没有闲着:现在可以使用更大的输入图像来训练deepfake模型,尽管这需要更昂贵的GPU。但实际上,近三年来,媒体所鼓吹的deepfake画质提升,主要归功于终端用户。他们积累了“省时又难得”的数据收集经验,以及训练模型的最佳方式(有时单个实验需要数周时间),并学会了如何利用和扩展2017年原始代码的最外层局限性。VFX和ML研究社区的一些人正试图通过扩展架构来打破流行的deepfake包的“硬限制”,以便机器学习模型可以在高达1024×1024的图像上进行训练。它的像素是目前DeepFaceLab或FaceSwap实用范围的两倍,更接近电影和电视制作中有用的分辨率。接下来我们来看看NeRF~Unveil2020年出现的NeRF(NeuralRadianceFields),是一种通过在神经网络中拼接多视点照片来重建物体和环境的方法。它通过使用一组稀疏的输入视图优化底层连续体积场景函数,实现了合成复杂场景视图的最先进结果。该算法还使用全连接深度网络表示场景,其输入是单个连续的5D坐标(空间位置(x,y,z)和观察方向(θ,φ)),其输出是体积密度和相对发射振幅亮度。通过沿相机光线查询5D坐标来合成视图,并使用经典的体积渲染技术将输出颜色和密度投影到图像中。实现过程:首先将一个连续场景表示为一个5D向量值函数,其输入为3D位置和2D观察方向,对应的输出为发射颜色c和体积密度σ。实际上,方向由3D笛卡尔单位向量d表示。我们使用MLP网络近似表示连续的5D场景并优化其权重。此外,通过限制网络将体积密度σ预测为位置x的函数,同时还允许将RGB颜色c预测为位置和观察方向的函数,鼓励表示在多个视图中保持一致。为实现这一点,MLP首先处理具有8个完全连接层(使用ReLU激活和每层256个通道)的输入3D坐标x,并输出σ和256维特征向量。然后将该特征向量与相机光线的观察方向连接起来,并传递到一个额外的全连接层,该层输出与视图相关的RGB颜色。此外,NeRF还引入了两项改进来实现高分辨率的复杂场景表示。第一个是帮助MLP表示高频函数的位置编码,第二个是分层采样过程,使其能够有效地对高频表示进行采样。众所周知,Transformer架构中的位置编码可以提供序列中标记的离散位置作为整个架构的输入。NeRF使用位置编码将连续输入坐标映射到更高维空间,使MLP更容易逼近更高频率的函数。从图中可以看出,去除位置编码会大大降低模型表示高频几何和纹理的能力,最终导致外观过于光滑。由于沿每条摄像机射线在N个查询点处密集评估神经辐射场网络的渲染策略效率非常低,因此NeRF最终采用分层表示,通过按最终渲染的预期效果按比例分配样本来提高渲染效率。简而言之,NeRF不是只使用一个网络来表示一个场景,而是同时优化两个网络,一个“粗粒度”网络和一个“细粒度”网络。未来可期。NeRF解决了过去的缺点,即使用MLP将物体和场景表示为连续函数。与以前的方法相比,NeRF可以产生更好的渲染结果。然而,NeRF也面临着诸多技术瓶颈。例如,NeRF的加速器会牺牲其他相对有用的功能(例如灵活性)来实现低延迟、更多交互环境和更少的训练时间。因此,NeRF虽然是关键性的突破,但要达到完美的效果还需要一定的时间。科技在进步,未来依然可期!