当前位置: 首页 > 科技观察

英伟达“一句话生成3D模型”碾压谷歌:分辨率八倍清晰,速度快一倍,编辑文字可直接修改

时间:2023-03-18 22:14:03 科技观察

转载请联系出处。一句话生成3D模型,Nvidia也来“秀肌肉”了~来看看它最新的Magic3DAI,效果是这样的。输入“坐在睡莲上的蓝色箭毒蛙”,就能得到如此精细的3D模型:“装满水果的银盘子”打不过:还有“鸟瞰城堡”之类的view”、“寿司车”、“鸡蛋燕窝”、“垃圾袋做裙子”……精细程度可见一斑。除了这个主要能力之外,它还可以通过编辑文本来修改模型:或者在输入中携带一些图片,最终的结果可以保留图片中的样式或者主要“人物”。不知道有没有戳中你的心?反正建模师要打电话失业了。。。怎么办?据介绍,Magic3D为获得快速高质量的结果所采取的策略是“由粗到精”,经历了低分辨率优化和高分辨率优化两个阶段。它使用eDiff-l作为模型的低分辨率文本到图像扩散先验。首先,在第一阶段,使用英伟达今年推出的3D重建模型InstantNGP,并对其进行优化,生成初始3D模型。具体来说,通过对低分辨率图像的反复采样和渲染,计算出SDSloss,InstantNGP给出结果。注:SDS全称ScoreDistillationSampling(分数蒸馏采样),是谷歌提出的一种新的采样方法,不需要对扩散模型进行反向传播更新。这一步完成后,使用DMTet提取初始3D网格作为第二阶段的输入。第二阶段采用高分辨率文本到图像的潜在扩散先验。还是用同样的方法,采样渲染高分辨率的图像,用同样的步骤更新得到最终的结果。唯一不同的是,这一阶段的操作都是在第一阶段得到的初始“粗”模型上进行的。分辨率比DreamFusion高8倍,速度快2倍。关注这个领域的朋友都知道,AI一句话生成3D模型中,最受关注的当属谷歌今年9月刚刚发布的DreamFusion。它通过预训练的2D文本到图像扩散模型来实现最终的文本到3D合成,效果惊人。那么,英伟达刚刚推出的Magic3D与其相比如何呢?通过实验对比,发现后来者明显更胜一筹,主要表现在分辨率和速度上:Magic3D的分辨率比DreamFusion高8倍,速度快2倍——40以内可以完成一次渲染分钟。具体效果方面,Magic3D的生成结果也比较详细,比如下面的“仙人掌”、“房子”、“草莓”(左边是Magic3D,右边是DreamFusion)。然而,遗憾的是,Magic3D并没有像DreamFusion那样开源。一共有10位作者。前5名贡献相当,包括:LinChen-Hsuan,现任Nvidia研究科学家,毕业于CMURobotics,获博士学位;曾晓晖,在多伦多攻读博士学位,毕业于香港科技大学;和来自同一所大学的TowakiTakikawa;最后,在康奈尔大学攻读博士学位的唐路明毕业于清华大学,获得物理和数学学士学位。论文地址:https://arxiv.org/abs/2211.10440项目主页:https://deepimagination.cc/Magic3D/