当前位置: 首页 > 科技观察

GPU可以在几秒钟内生成3D模型!OpenAI重磅新作:Point-E可以生成带文字的3D点云模型

时间:2023-03-12 18:39:26 科技观察

下一个席卷AI世界的突破口在哪里?很多人预测,就是3D模型生成器。继年初推出的DALL-E2用天才画笔惊艳众人后,OpenAI在周二发布了最新的图像生成模型“POINT-E”,可以直接通过文本生成3D模型。论文链接:https://arxiv.org/pdf/2212.08751.pdf与竞争对手(如谷歌的DreamFusion)需要多个GPU工作几个小时相比,POINT-E仅用一个GPU就可以在几分钟内生成3D图像.经过小编的实战测试,POINT-E在Prompt输入后基本可以秒级输出3D图像,输出图像还支持自定义编辑、保存等功能。地址:https://huggingface.co/spaces/openai/point-e网友们也开始尝试不同的提示输入。但输出结果并不都令人满意。有网友表示,POINT-E或许可以实现Meta的元宇宙愿景?需要注意的是,POINT-E通过点云生成3D图像,即空间中点的数据集。简单来说,就是通过3D模型采集数据,得到代表空间3D形状的点云数据。从计算的角度来看,点云更容易合成,但无法捕捉到物体精致的形状或纹理,这是目前Point-E的缺点。为了解决这个限制,Point-E团队训练了一个额外的AI系统来将Point-E的点云转换为网格。ConvertPoint-Epointcloudtomesh除了独立的网格生成模型,Point-E由两个模型组成:text-to-imagemodel(文本到图像模型)和image-to-image3D模型(图像到3D模型)。文本到图像的翻译模型类似于OpenAI的DALL-E2和StableDiffusion,在标记图像上进行训练以理解单词和视觉概念之间的关联。然后,将一组与3D对象配对的图像输入到3D翻译模型中,以便该模型学习在两者之间有效地进行翻译。当作为提示输入时,文本到图像的转换模型会生成一个复合渲染对象,该对象被馈送到图像转换3D模型,然后生成点云。OpenAI研究人员表示,Point-E是在数百万个3D对象和相关元数据的数据集上进行训练的。但它并不完美,Point-E的图像到3D模型有时无法理解文本到图像模型中的图像,导致形状与文本提示不匹配。尽管如此,它仍然比以前的最先进技术快几个数量级。他们在论文中写道:“虽然我们的方法在评估方面的表现比最先进的方法差,但生成样本只花费了一小部分时间。”这可以使其对某些应用程序更有用,并发现更高质量的3D对象。Point-E架构和操作Point-E模型首先使用文本到图像扩散模型生成单个合成视图,然后使用以生成的图像为条件的第二个扩散模型生成3D点云。虽然该方法在采样质量方面仍不是最先进的,但它的采样速度确实快了一到两个数量级,为某些用例提供了实际的权衡。下图是模型的高层流水线示意图:我们不是训练单一的生成模型直接生成以文本为条件的点云,而是将生成过程分为三个步骤。首先,生成一个以文本标题为条件的复合视图。接下来,根据合成视图生成粗点云(1,024点)。最后,生成了以低分辨率点云和合成视图为条件的精细点云(4,096点)。在数百万个3D模型上训练模型后,我们发现数据集的数据格式和质量差异很大,这促使我们开发各种后处理步骤以确保更高的数据质量。为了将所有数据转换为通用格式,我们使用Blender从20个随机摄像机角度将每个3D模型渲染为RGBAD图像(Blender支持多种3D格式并带有优化的渲染引擎)。对于每个模型,Blender脚本将模型规范化为边界立方体,配置标准照明设置,最后使用Blender的内置实时渲染引擎导出RGBAD图像。然后,使用Render将每个对象转换为彩色点云。首先,通过计算每个RGBAD图像中每个像素的点,为每个对象构建一个密集点云。这些点云通常包含数十万个分布不均的点,因此我们还使用最远点采样来创建统一的4K点云。通过直接从渲染中构建点云,我们能够避免直接从3D网格采样、模型中包含的采样点或使用以特殊文件格式存储的3D模型时可能出现的各种问题。最后,我们采用各种启发式方法来减少数据集中低质量模型的频率。首先,我们通过计算每个点云的SVD来消除平面对象,只保留那些最小奇异值高于特定阈值的对象。接下来,我们通过CLIP特征对数据集进行聚类(对于每个对象,我们对所有渲染的特征进行平均)。我们发现一些集群包含许多低质量的模型类,而其他集群则显得更加多样化或可解释。我们将这些集群分成几个不同质量的桶,并使用所得桶的加权混合作为我们的最终数据集。应用前景OpenAI研究人员指出,Point-E的点云也可以用来制造现实世界的物体,比如3D打印。该系统还可以通过额外的网格转换模型进入游戏和动画开发工作流程。虽然目前所有的目光都集中在2D艺术生成器上,但模型合成AI可能会成为下一个重大的行业颠覆者。3D模型广泛应用于影视、室内设计、建筑和各个科学领域。现在的3D模型制作通常需要几个小时,Point-E的出现恰好弥补了这一缺憾。研究人员表示,在这个阶段,Point-E存在许多缺陷,例如从训练数据中继承的偏差以及缺乏对可能用于创建危险物体的模型的保护。Point-E只是一个起点,他们希望它将激发文本到3D合成领域的“进一步工作”。