当前位置: 首页 > 科技观察

为3D模型“蒙皮”有多容易?就一句话

时间:2023-03-13 21:44:33 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。为灰色3D模型添加“新皮肤”有多容易?现在,只需要一句话就可以搞定。看!一个普通的小台灯,给一个“砖灯”的描述,瞬间变成了“砖灯”:一匹灰色的小马,加上“宇航员马”,突然变成了“宇航员马”:操作简单,每时每刻还呈现了一个角度的细节和纹理。这是通过Text2Mesh完成的,这是一种专用于“蒙皮”3D对象的模型,由芝加哥大学和特拉维夫大学联合创建。有趣吗?一句话给3D物体“蒙皮”Text2Mesh模型的输入只需要一个3DMesh(不管原图质量如何),加上文字描述。具体变换过程如下:输入原始网格模型mesh,顶点V∈Rn×3,面F∈{1,...,n}m×3,在整个训练过程中是固定的。然后构造一个神经风格(neuralstyle)网络,为网格的每个顶点生成一个风格属性,然后在整个表面上定义风格。具体来说,网络将网格表面p∈V上的点映射到相应的RGB颜色,并沿法线方向移动它们以生成程式化的初始网格。然后从多个视图渲染该网格。然后使用CLIP中嵌入的2D增强技术使结果更加逼真。在此过程中,渲染图像和文本提示之间的CLIP相似度分数被用作更新神经网络权重的信号。整个Text2Mesh不需要预训练,不需要专门的3DMesh数据集,也不需要UV参数化(将三角网格展开到二维平面)。具体作用是什么?Text2Mesh在单个GPU上的训练时间不到25分钟,高质量的结果可以在10分钟内出现。可以生成多种样式,细节还原的很好:再比如下面,无论是变成雪人、忍者、蝙蝠侠、绿巨人,还是乔布斯、梅西、律师……衣服、配饰的褶皱、肌肉、头发……等细节都可以淋漓尽致地呈现出来。研究人员还设计了一项用户调查,将Text2Mesh与基线方法VQGAN进行比较。评分涉及三个问题:1.生成结果的自然程度;2、文本与结果的匹配程度;3、结果与原图的匹配程度。经过57位用户打分,结果如下:Text2Mesh在每一项得分都高于VQGAN。此外,Text2Mesh还可以容纳更复杂和特殊的文本描述。例如,“用钩针编织的闪亮的金色衣服熨斗”:“带波纹金属的蓝钢luxo台灯”:此外,Text2Mesh模型还可以直接由图像驱动。比如给一张仙人掌的照片,也可以直接把原来的灰色3D猪改成“仙人掌造型”:OneMoreThingText2Mesh代码已经开源,KaggleNotebook上有人上传了demo。有兴趣的朋友可以试一试:最后,你知道这是什么吗?demo地址:https://www.kaggle.com/neverix/text2mesh/论文:https://arxiv.org/abs/2112.03221代码:https://github.com/threedle/text2mesh参考链接:https://threedle.github.io/text2mesh/