当前位置: 首页 > 科技观察

假3D场景逼真度爆棚!超1亿像素无死角,被誉为AI渲染新高度

时间:2023-03-20 12:27:44 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处.先来看一个“视频”。你看有什么不对吗?其实这只是一组照片的效果图(照片是右下角拍的)!生成的不仅是视频,还是3D场景模型,不仅可以任意角度切换,高清无死角,还可以调整曝光、白平衡等参数生成新照片:在完全不同的场景中,比如在坦克工厂,一组照片也可以渲染出逼真的3D场景,而且同一个角度几乎和实拍图像“一模一样”:要知道虽然苹果之前已经做到了一组照片生成目标物体的3D模型,但最多是一个物体,像一个盒子:这次是整个3D场景!这是德国埃尔兰根-纽伦堡大学的几位研究人员所做的一个项目。效果一出来就大受欢迎。它在国外社交媒体上有超过5k的点赞数和36w+的阅读量。那么,如此神奇的效果是如何产生的呢?使用照片还原整个3D场景图总体而言,本文提出了一种基于点的可微分神经渲染管道ADOP(近似可微分单像素点渲染),它使用AI分析输入图像并从新角度输出新图像。输入的时候,由于需要对3D场景进行建模,这里的照片需要严格拍摄,获取整个场景的稀疏点云数据。具体来说,作者在从照片中获取点云数据时采用了COLMAP。首先从多个不同角度拍摄场景照片,每张照片的视角都受到严格控制。然后使用SfM(StructureFromMotion,运动恢复结构)方法获取相机的内外参数,得到整个场景的3D重建数据,即代表场景结构的稀疏点云:那么,包含点云等信息的场景数据将被输入管道进行进一步处理。管道主要分为三个部分:可微分光栅化器、神经渲染器和可微分色调映射器。首先,使用多分辨率单像素光栅化可微分渲染器(可微分光栅化器)将输入相机参数和重建的点云数据转换为稀疏神经图像。其中,模型中关于图像和点云对齐的部分是使用NavVis数据集进行训练的。然后,使用神经渲染器对稀疏神经图像进行阴影计算和空洞填充,生成HDR图像。最后,由于不是每个设备都支持HDR图像,在显示到LDR设备之前,还需要使用基于物理的可微分色调映射器改变动态范围,将HDR图像变成LDR图像。用每个场景300多张图像训练这个新模型有什么好处?由于模型的所有阶段都是可微的,因此该模型能够优化场景的所有参数(相机模型、相机姿势、点位置、点颜色、环境贴图、渲染网络权重、渐晕、相机响应函数、曝光和白平衡每个图像)并用于生成更高质量的图像。具体到训练上,作者首先使用了688张图片(包括73M个点)来训练神经渲染管线(pipeline)。对于演示中的几个场景(火车、灯塔、游乐园、游乐场等),作者使用高端相机拍摄了300~350张全高清图像,每个场景生成的像素数分别为10M、8M、12M和11M,其中5%的图像用于测试。也就是说,制作这样一个3D场景大约需要上百张图片,同时每张图片的拍摄都需要严格的角度控制。不过,还是有读者表示,AI可以通过拍摄数百张图像来创建一个场景,这比现在的人工渲染要快得多。在功能上,该模型不仅可以生成参数可调的新角度照片,还可以自动插值生成全场景的3D渲染视频,可以说潜力巨大。那么这款模型与目前其他模型的渲染图相比如何呢?1亿+像素场景实时显示据作者介绍,论文中采用的高效单像素光栅化方法使得ADOP可以使用任何相机型号,实时显示超过1亿像素的场景。从肉眼生成的结果来看,同行业最新几款机型生成的图片或多或少都会存在一些伪影或不真实的情况。相比之下,ADOP对细节的处理非常好:从数据上看,无论是火车、游乐场、坦克还是灯塔场景,在ADOP模型的渲染下,几乎可以在VGG、LPIPS上达到最好的效果和PSNR(坦克的数据除外)。但是,研究本身也存在一定的局限性,比如单像素渲染时点云仍然稀疏时,渲染存在空洞等。但整体来看,3D场景的实时显示效果还是非常出众的,不少业内人士表示“达到了AI渲染的新高度”。很多网友已经开始想象这项研究的用途,比如为电影制片厂节省大量的时间和精力:(连电影系的学生都想直接用在成片上)对游戏行业的影响是也很好:在家就能打造3A大作的场景,是不是也要实现了?等不及了。有人想象如果能在iPhone上实现就好了(连iPhone15都已经预购了):关于研究本身,有网友觉得在局外人看来更像是插框模式(有网友回应几乎一样)是这样的):也有网友表示,由于需要更多的图片,效果没有宣传的那么好,对研究潜力持保留态度:虽然作者建立了一个GitHub项目,代码暂未发布。有兴趣的同学可以先蹲下。至于具体的开源时间,作者表示“拿下顶会后发布”。(但愿这篇论文被鼎晖成功收录~)论文地址:https://arxiv.org/abs/2110.06635项目地址(代码暂未公开):https://github.com/darglein/ADOP