Abracadabra!在2D生成3D模型上,英伟达展示了其自称“世界级”的研究成果:GET3D。在对2D图像进行训练后,该模型生成具有高保真纹理和复杂几何细节的3D形状。它有多强大?Shape,Texture,MaterialCustomGET3D之所以得名,是因为它可以生成显式纹理3D网格(GenerateExplicitTextured3Dmeshes)。论文地址:https://arxiv.org/pdf/2209.11163.pdf即它创建的形状是三角形网格的形式,就像纸模型一样,上面覆盖着有纹理的材料。关键是这个模型可以生成各种高质量的模型。比如椅子腿上的各种轮子;车轮、灯和窗户;动物的耳朵和角;摩托车后视镜,汽车轮胎上的纹理;高跟鞋、人的衣服……街道两旁别具一格的建筑、呼啸而过的不同车辆、路过的不同人群……如果要通过手工建模来创建相同的3D虚拟世界,会非常耗时。尽管以前的3D生成AI模型比手动建模更快,但它们仍然缺乏生成更丰富细节模型的能力。即使是最新的逆向渲染方法也只能根据从各个角度拍摄的2D图像生成3D对象,开发人员一次只能构建一个3D对象。GET3D是不同的。开发人员可以轻松地将生成的模型导入游戏引擎、3D建模器和电影渲染器中进行编辑。当创作者将GET3D生成的模型导出到图形应用程序时,他们可以在模型在场景中移动或旋转时应用逼真的灯光效果。如图:另外,GET3D还可以生成文字引导的形状。通过使用Nvidia的另一种人工智能工具StyleGAN-NADA,开发人员可以使用文本提示为图像添加特定样式。例如,您可以将渲染的汽车变成烧毁的汽车或出租车,将普通的房子变成砖房、着火的房子,甚至是鬼屋。或者把虎纹、熊猫纹的特性应用到任何动物身上……简直就是辛普森一家的“动物森林之友俱乐部”……据英伟达介绍,在单块英伟达GPU上训练,GET3D每生成大约20个物体第二。在这里,它从中学习的训练数据集越大、越多样化,输出就越多样化、越详细。据Nvidia称,研究团队在短短2天内使用A100GPU在大约100万张图像上训练了模型。研究方法和过程GET3D框架主要用于合成带纹理的3D形状。生成过程分为两部分:第一部分是几何分支,可以输出任意拓扑的面网格。另一部分是纹理分支,它产生一个可以在表面点上查询的纹理场。在训练过程中,可微光栅化器用于有效地将生成的纹理网格渲染成二维高分辨率图像。整个过程是可分离的,允许通过传播2D鉴别器的梯度从图像进行对抗训练。之后,梯度从2D鉴别器传播到两个生成器分支。研究人员随后进行了广泛的实验来评估该模型。他们首先比较了GET3D生成的3D纹理网格与使用ShapeNet和Turbosquid数据集生成的网格的质量。接下来,研究人员根据对比结果对模型进行了优化,并在后续研究中进行了更多的实验。GET3D模型可以实现几何和纹理的相分离。如图所示,在每一行中都显示了由相同几何代码隐藏生成的形状,同时更改了纹理代码。在每一列中显示了由相同纹理隐藏代码生成的形状,同时更改了几何代码。或者,研究人员在每一行中插入相同的纹理代码生成形状,从左到右插入几何编码。和生成的形状一样,几何隐藏代码,同时从上到下插入纹理代码。事实证明,每个插值对生成模型都是有意义的。在每个模型的子图中,GET3D能够在所有类别的不同形状之间生成平滑过渡。在每一行中,隐藏代码都通过添加小噪声进行局部扰动。通过这种方式,GET3D能够在本地生成外观相似但略有不同的形状。研究人员指出,未来版本的GET3D可以使用相机姿势估计技术,让开发人员可以根据真实世界的数据而不是合成数据集来训练模型。在未来,改进将允许开发人员同时在各种3D形状上训练GET3D,而不是一次在一个对象类别上训练它。NVIDIA人工智能研究副总裁SanjaFidler表示:“GET3D使我们离AI驱动的3D内容创作民主化又近了一步。它动态生成带纹理的3D形状的能力可能会改变开发人员的游戏规则,帮助他们用各种有趣的对象快速填充虚拟世界。作者简介高俊,论文第一作者,多伦多大学机器学习组博士生,师从SanjaFidler。除了学术卓越,他还是NVIDIA多伦多人工智能实验室的研究科学家。他的研究重点是深度学习(DL),目标是学习结构化几何表示。同时,他的研究还借鉴了人类对2D和3D图像和视频的感知。这样一位优秀的高材生来自北京大学。2018年毕业,获学士学位。在北京大学期间,与王立伟教授共事。毕业后,他还在斯坦福大学、MSRA和NVIDIA实习过。http://www.cs.toronto.edu/~jungao/JunGao的导师也是业内的佼佼者。Fidler是多伦多大学的副教授,VectorInstitute的教员,也是该研究所的共同创始成员。除了教学之外,她还是Nvidia人工智能研究的副总裁,领导多伦多的一个研究实验室。来多伦多之前,她是芝加哥丰田理工学院的研究助理教授。该研究所位于芝加哥大学校园内,被认为是一个学术机构。Fidler的研究重点是计算机视觉(CV)和机器学习(ML),专注于CV与图形的交叉、3D视觉、3D重建与合成,以及图像标注的交互方法等。https://www.cs.toronto.edu/~fidler/
