英伟达“一句话生成3D模型”碾压谷歌：分辨率八倍清晰，速度快一倍，编辑文字可直接修改

时间：2023-03-18 22:14:03 科技观察

转载请联系出处。一句话生成3D模型，Nvidia也来“秀肌肉”了~来看看它最新的Magic3DAI，效果是这样的。输入“坐在睡莲上的蓝色箭毒蛙”，就能得到如此精细的3D模型：“装满水果的银盘子”打不过：还有“鸟瞰城堡”之类的view”、“寿司车”、“鸡蛋燕窝”、“垃圾袋做裙子”……精细程度可见一斑。除了这个主要能力之外，它还可以通过编辑文本来修改模型：或者在输入中携带一些图片，最终的结果可以保留图片中的样式或者主要“人物”。不知道有没有戳中你的心？反正建模师要打电话失业了。。。怎么办？据介绍，Magic3D为获得快速高质量的结果所采取的策略是“由粗到精”，经历了低分辨率优化和高分辨率优化两个阶段。它使用eDiff-l作为模型的低分辨率文本到图像扩散先验。首先，在第一阶段，使用英伟达今年推出的3D重建模型InstantNGP，并对其进行优化，生成初始3D模型。具体来说，通过对低分辨率图像的反复采样和渲染，计算出SDSloss，InstantNGP给出结果。注：SDS全称ScoreDistillationSampling（分数蒸馏采样），是谷歌提出的一种新的采样方法，不需要对扩散模型进行反向传播更新。这一步完成后，使用DMTet提取初始3D网格作为第二阶段的输入。第二阶段采用高分辨率文本到图像的潜在扩散先验。还是用同样的方法，采样渲染高分辨率的图像，用同样的步骤更新得到最终的结果。唯一不同的是，这一阶段的操作都是在第一阶段得到的初始“粗”模型上进行的。分辨率比DreamFusion高8倍，速度快2倍。关注这个领域的朋友都知道，AI一句话生成3D模型中，最受关注的当属谷歌今年9月刚刚发布的DreamFusion。它通过预训练的2D文本到图像扩散模型来实现最终的文本到3D合成，效果惊人。那么，英伟达刚刚推出的Magic3D与其相比如何呢？通过实验对比，发现后来者明显更胜一筹，主要表现在分辨率和速度上：Magic3D的分辨率比DreamFusion高8倍，速度快2倍——40以内可以完成一次渲染分钟。具体效果方面，Magic3D的生成结果也比较详细，比如下面的“仙人掌”、“房子”、“草莓”（左边是Magic3D，右边是DreamFusion）。然而，遗憾的是，Magic3D并没有像DreamFusion那样开源。一共有10位作者。前5名贡献相当，包括：LinChen-Hsuan，现任Nvidia研究科学家，毕业于CMURobotics，获博士学位；曾晓晖，在多伦多攻读博士学位，毕业于香港科技大学；和来自同一所大学的TowakiTakikawa；最后，在康奈尔大学攻读博士学位的唐路明毕业于清华大学，获得物理和数学学士学位。论文地址：https://arxiv.org/abs/2211.10440项目主页：https://deepimagination.cc/Magic3D/

上一篇：2021年要学习的5种编程语言

下一篇：物联网可以帮助我们实现可持续未来的五种方式

英伟达“一句话生成3D模型”碾压谷歌：分辨率八倍清晰，速度快一倍，编辑文字可直接修改相关文章