当前位置: 首页 > 科技观察

突破AI与机器理解的界限,牛津博士论文学习重构和分割3D物体

时间:2023-03-17 21:23:15 科技观察

,让机器具备像人类一样感知3D物体和环境的能力,是人工智能领域的重要课题.牛津大学计算机系博士生杨博在毕业论文中详细阐述了如何重构和分割3D物体,从而赋予机器感知3D环境的能力,突破人工边界智能和机器理解。赋予机器像人类一样从三个维度感知现实世界的能力,是人工智能领域的一个基本且长期存在的主题。考虑到视觉输入具有不同类型,例如通过2D或3D传感器或点云获取的图像,该领域研究的一个重要目标是理解3D环境的几何和语义。传统方法通常利用手工构建的特征来估计对象或场景的形状和语义。然而,这些方法难以泛化到新物体和新场景,也难以克服视觉遮挡这一关键问题。今年9月毕业的牛津大学计算机科学博士生BoYang在他的论文《Learning to Reconstruct and Segment 3D Objects》中研究了这个课题。与传统方法不同,作者通过在大规模真实世界3D数据上训练的深度神经网络来学习通用且稳健的表征,进而理解场景和场景中的物体。总的来说,本文开发了一系列新颖的数据驱动算法,用于机器感知真实世界的3D环境。“这篇论文可以说突破了人工智能和机器理解的界限,”作者说。博士论文共143页,共六章。机器之心简要介绍了论文的核心内容,感兴趣的读者可以阅读论文原文。论文地址:https://arxiv.org/pdf/2010.09582.pdf论文概述在第2章中,作者首先回顾了以往关于3D物体重建和分割的研究工作,包括单视角和多视角3D物体重建、3D点云分割、生成对抗网络(GAN)、注意力机制和集成深度学习。此外,本章末尾还介绍了本研究在单视图/多视图3D重建和3D点云分割方面与SOTA方法相比的新颖性。基于单视图的3D对象重建在第3章中,作者提出了一种基于GAN的深度神经架构,以从单个深度视图中学习对象的密集3D形状。作者将这个简单但有效的模型称为3D-RecGAN++,它将跳跃连接的3D编码器-解码器与对抗性学习相结合,从单个2.5D视图结构生成完整的细粒度3D。模型网络架构的训练和测试过程如下图所示:接下来作者使用条件对抗训练对encoder-decoder估计的3D形状进行细化,其中3D形状细化的判别器结构图如下:最后,作者将提出的3D-RecGAN++与SOTA方法进行了比较,并进行了控制变量研究。对合成数据集和真实数据集的广泛实验结果表明该模型表现良好。基于多视图的3D对象重建在第4章中,作者提出了一种新颖的基于注意力的神经模块,可以从多个视图中推断出更好的3D对象形状。这个简单但高效的注意力聚合模块称为AttSets,其结构如下图所示。与现有方法相比,该方法可以学习从不同图像中聚合有用信息。此外,研究人员引入了一种两阶段训练算法,以确保在给定一定数量的输入图像的情况下,估计的3D形状是稳健的。研究人员在多个数据集上进行了实验,证明该方法能够准确还原物体的3D形状。学习从点云中分割3D对象在第5章中,研究人员提出了一个新框架来识别大型3D场景中的所有单个3D对象。与现有研究相比,我们的框架能够直接并同时检测、分割和识别所有对象实例,而无需任何繁琐的预处理/后处理步骤。研究人员在多个大型真实世界数据集上展示了相对于基线的性能改进。关于作者本文作者杨博,现任香港理工大学计算机系助理教授。毕业于北京邮电大学和香港大学,分别获得学士和硕士学位,后进入牛津大学计算机系攻读博士学位,导师为NikiTrigoni教授和安德鲁马卡姆。BoYang的第一篇及合着论文已被《计算机视觉国际期刊》(IJCV)、NeurIPS、CVPR等学术会议录用。谷歌学术首页显示,他与人合着了22篇论文,被引用次数超过400次。论文目录如下: