当前位置: 首页 > 科技观察

简而言之,让3D模型生成逼真的风格直至照片般逼真的细节

时间:2023-03-19 21:37:56 科技观察

从给定的输入(例如,从文本提示、图像或3D形状)创建3D内容在计算机视觉和图形。然而,这个问题具有挑战性。在现实中,专业美术师(TechnicalArtists)通常需要花费大量的时间和成本来创作3D内容。同时,许多在线3D模型库中的资源通常是没有任何材料的裸3D模型。要将它们应用到当前的渲染引擎,技术美术师需要为它们创建高质量的材质、灯光和法线贴图。.因此,如果有一种方法可以实现自动、多样化和逼真的3D模型资产生成,那将是很有希望的。因此,华南理工大学、香港理工大学、跨维智能、鹏城实验室等机构的研究团队提出了一种文本驱动的3D模型风格化方法——TANGO,它是针对给定的3D模型和文本,可以自动生成更逼真的SVBRDF材质、法线贴图和灯光,对低质量的3D模型有更好的鲁棒性。这项研究已被NeurIPS2022接受。项目主页:https://cyw-3d.github.io/tango/模型效果对于给定的文本输入和3D模型,TANGO可以产生更精细的照片级真实感细节,并且不会在3D模型表面中会产生自相交问题。如下图1所示,TANGO不仅可以在光滑材质(如金、银等)上呈现逼真的反射效果,还可以对不平整的材质(如砖块等)逐点估算法线渲染颠簸的效果。图1.TANGO的程式化结果TANGO能够生成逼真的渲染结果的关键是能够准确分离着色模型中的每个组件(SVBRDF、法线贴图、光照)并分别学习。该组件再通过球形高斯可微渲染器输出图片,并发送给CLIP与输入文本一起计算损失。为了证明解耦组件的基本原理,该研究将每个组件可视化。图2(a)是“一双砖头鞋”的程式化结果,(b)是3D模型的原始法线方向,(c)是TANGO对3D模型上每个点预测的法线方向,(d)(e)(f)分别表示SVBRDF中的漫反射、粗糙度和镜面反射参数,(g)是由TANGO预测的球面高斯函数表示的环境光。图2.解耦渲染组件的可视化同时,研究还可以编辑TANGO输出的结果。例如,在图3中,研究可以使用其他光照贴图来重新照亮TANGO结果;在图4中,可以编辑粗糙度和镜面反射参数以改变物体表面的反射程度。图3RelightingTANGO的风格化结果图4编辑物体的材质另外,由于TANGO使用预测法线贴图来添加物体表面细节,因此对于顶点数较少的3D模型也非常稳健。如图5所示,原始灯和外星人模型分别有41160和68430张面孔,研究人员对原始模型进行降采样得到只有5000张面孔的模型。可以看出TANGO在原始模型和降采样模型上的表现基本相似,而Text2Mesh在低质量模型上的自交现象??更为严重。图5鲁棒性测试原理方法TANGO主要关注文本引导的3D对象风格化方法。这方面最相关的工作是Text2Mesh,它使用预训练模型CLIP作为指导来预测3D模型表面顶点的颜色和位置偏移,从而实现风格化。然而,简单地预测表面顶点颜色往往会产生不真实的渲染效果,不规则的顶点偏移会导致严重的自相交。因此,本研究借鉴传统的基于物理的渲染管线,将整个渲染过程解耦为SVBRDF材质、法线贴图和光预测过程,并使用球面高斯函数分别表示解耦后的元素。这种基于物理的解耦使TANGO能够正确地生成具有良好鲁棒性的逼真渲染。图6TANGO流程图图6显示了TANGO的工作流程。给定一个3D模型和文本(比如图片中的“一只由金制成的鞋子”),该研究首先将3D模型缩放到一个单位球体,然后对3D模型附近的相机位置进行采样。在这个相机位置发射射线,找到与3D模型的交点xp和交点的法线方向np。接下来,xp和np会被送入SVBRDF网络和Normal网络,预测该点的材料参数和法线方向。同时使用多个球面高斯函数来表达场景中的光照。对于每次训练迭代,该研究使用可微球面高斯渲染器渲染图像,然后使用CLIP模型的图像编码器对增强图像进行编码,最后CLIP模型反向传播梯度以更新所有可学习参数。总结本文提出了TANGO,这是一种从输入文本为3D模型生成逼真外观样式的新方法,它对低质量模型具有鲁棒性。通过将外观风格与SVBRDF、局部几何变化(逐点法线)和光照条件解耦,并将它们表示和渲染为球面高斯函数,可以使用CLIP作为损失监督和学习。与现有方法相比,TANGO即使对低质量的3D模型也具有鲁棒性。但逐点提供几何细节的方法避免了自相交,同时略微降低了材料表面可表现的凹凸不平程度。本研究认为基于顶点偏移的TANGO和Text2Mesh在各自的方向上进行。良好的初步尝试将激发更多的后续研究。