当前位置: 首页 > 科技观察

如果你买不起人偶,那就用AI来渲染吧!

时间:2023-03-15 00:09:29 科技观察

可以在网上随便搜合成。本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载。将七龙珠3D人物渲染到头发和皮肤褶皱有多复杂?对于经典模型NeRF,至少需要100张在一定距离内使用同一相机拍摄的人物照片。而现在,一个新的AI模型只需要40张无限来源的网络图片就可以渲染出整个人形!对这些照片的拍摄角度、距离、亮度没有要求,但还原出来的图片可以清晰无伪影:甚至素材都可以从任意角度进行预估和重亮:这个AI模型叫做NeROIC,是来自南加州大学和Snap团队的新技巧。有网友看到后欣喜若狂:不同角度的照片可以渲染出3D模型,快进到只用照片拍电影……还有网友借机炒NFT(手动狗头)那么,NeROIC到底是怎么靠的在任意2D输入上,获取对象的3D形状和属性?基于NeRF改进,可预测材质光照在介绍这个模型之前,有必要简单回顾一下NeRF。NeRF提出了一种称为神经辐射场的方法,它使用一个5D向量函数来表示一个连续的场景,其中使用5个参数来表示空间点的坐标位置(x,y,z)和观察方向。(θ,φ)。但是NeRF存在一些问题:对输入图像要求高,必须是同一场景拍摄的物体照片;无法预测物体的材料属性,因此无法更改渲染光照条件。本次NeROIC针对这两方面进行了优化:输入图片的场景不受限制,可以是任何物体的背景照片,甚至是网络图片;材质属性可以预测,物体的表面光照效果可以在渲染时改变(youcanlighting)。它主要由2个网络组成,包括深度提取网络(a)和渲染网络(c)。首先是深度提取网络,用于提取物体的各种参数。为了实现无限输入场景,需要让AI学会从不同的背景中剪出图片。但是,由于AI没有准确估计相机的位置,所以切出的图片总是有以下的伪影(图中左边):因此,深度提取网络引入了相机参数,让AI学习如何估计相机的位置相机,即估计图片中的网友是从哪个角度和距离拍摄的,提取出来的图片接近真实效果(GT):同时,设计了一种新的表面法线估计算法一个物体,在保留关键细节的同时,也消除了几何噪声的影响(法线是模型表面的纹理,随着光照条件的变化而变化,从而影响光照渲染效果):最后是渲染网络它使用提取的参数来渲染3D对象的效果。具体来说,论文提出了一种结合颜色预测、神经网络和参数模型的方法,用于计算颜色、预测最终法线等。其中,NeROIC的实现框架是用PyTorch搭建的,使用4块NVIDIATeslaV100显卡进行训练。训练时,深度提取网络需要运行6~13小时,渲染网络需要运行2~4小时。可以使用网络图像渲染3D模型。至于训练NeROIC使用的数据集,主要有三部分:来自网络(部分产品来自网购平台,即亚马逊和淘宝),NeRD,以及作者自己的照片(牛奶,电视,模特)图片,每个物体平均收集40张照片。那么,这样的模型有什么作用呢?该论文首先将NeROIC与NeRF进行了比较。从直观的效果来看,无论是物体渲染细节还是清晰度,NeROIC都优于NeRF。具体来说,在峰值信噪比(PSNR)和结构相似性(SSIM)方面,深度提取网络的“匹配”技术相当不错,优于NeRF:同时,论文也在更多场景下测试发现没有伪影等:可以生成新的角度,重新打光效果也不错,比如这个是在室外场景:室内场景的打光是另一种效果:作者还尝试将照片数量减少到20张甚至10张,用于在NeRF和NeROIC上进行训练。结果表明,即使在数据集不足的情况下,NeROIC仍然优于NeRF。不过有网友表示,作者并没有给出玻璃或半透明材质的渲染效果:对于AI来说,重构透明或半透明物体确实是一个比较复杂的工作,代码出来后大家可以试试效果。据作者称,该代码仍在准备中。网友调侃:“说不定会在高层会议上发布,或者在演讲之后发布。”一篇是清华校友论文,一篇是匡正飞。他目前是博士学位。美国南加州大学学生,师从计算机图形学领域著名华人教授李浩。毕业于清华大学计算机系,曾在胡世民教授图规划团队任助理研究员。这篇文章是他在Snap实习期间完成的,其余作者均来自Snap团队。未来,你或许只需要几场网友的“卖货秀”,就可以真正在家尝试VR云。论文地址:https://arxiv.org/abs/2201.02533项目地址:https://formyfamily.github.io/NeROIC/