五秒手机猫图还可以重建猫的3D模型。Meta提出了一种新的算法来对变形的物体进行建模。我们都知道猫是液体。这也给CVer带来了很大的困扰:如何从2D视频中准确重建出3D猫?在许多情况下,3D重建模型原来是一滩液体。近日,Meta团队提出的BANMo(BuilderofAnimatable3DNeuralModels)实现了猫的精准3D重建。这种方法既不需要特殊的传感器,也不需要预定义的模板形状,甚至可以只用你平时拍的猫的随意视频就可以进行3D重建。这篇关于BANMo的论文最近被CVPR2022录用,作者已经开源了相关代码。原理从单目视频中重建自由移动的非刚性物体(如猫)是一项高度欠约束的任务,面临三大挑战:如何在规范空间中表示目标模型的3D外观和变形;如何找到规范空间与每一帧的映射关系;如何找到图像中视角、光线变化和目标变形之间的二维对应关系。之前的NRSfM、NeRF等方法要么无法准确重建表面,要么对拍摄角度和物体的刚度有要求。为了解决这些问题,BANMo使用神经混合皮肤,它提供了一种限制目标对象变形空间的方法。BANMo可以实现高保真3D几何重建。与动态NeRF方法相比,在BANMo中使用神经混合皮肤可以更好地处理相机参数未知的姿势变化和变形。总的来说,BANMo的关键在于融合了三种技术:(1)利用关节骨骼和混合皮肤的经典可变形形状模型;(2)适用于梯度优化的神经辐射场NeRF;(3)在铰接模型之间生成对应关系的规范嵌入。一般的方法如下图所示:一组形状和变形参数根据可微分体积渲染框架(3.1)进行优化,视频观察通过像素颜色、轮廓、光流和高阶特征描述符来描述。使用神经混合皮肤模型(3.2)在相机空间和规范空间之间转换3D点。联合优化隐式规范嵌入(3.3)以在视频中注册像素。从整体架构来看,BANMo分为三个部分:1.形状和外观模型这部分使用多层感知器(MLP)网络来预测颜色和密度等属性,并学习相机透视变换和处理大变形。2.神经混合皮肤变形模型这是一种基于近似关节体运动的神经混合皮肤模型,它将物体的变形视为刚体变换的组合,每个刚体变换都是可微可逆的。3.CanonicalEmbeddings像素配准嵌入对规范空间中3D点的语义信息进行编码,这里我们优化隐式函数以从与2DDensePoseCSE嵌入匹配的3D规范点生成规范嵌入。在真实和合成数据集上,BANMo在重建穿着衣服的人类和动物方面表现出强大的性能。作者简介本文第一作者杨庚善,毕业于西安交通大学,现攻读博士学位。在CMU,研究动态结构的3D重建算法。这篇关于BANMo的论文是他在Meta实习期间完成的。2019年至今,第一作者论文4篇被NeurIPS录用,第一作者论文4篇被CVPR录用。
