近年来,深度学习技术让计算机视觉和机器人领域的许多进步成为可能,但训练深度模型需要对各种输入进行泛化到新的场景。此前,计算机视觉领域已经使用网络抓取技术收集了数百万主题的数据集,包括ImageNet、OpenImage、Youtube-8M、COCO等。但是,标记这些数据集仍然是劳动密集型的,标记错误可能会影响对技术进步的感知,并且这种策略很难推广到3D或真实世界的机器人数据。与图像不同,目前网络上还没有大规模、高质量的3D场景,从现实世界中收集此类数据极具挑战性。此外,人类注释者很难从图像中提取3D几何特征。一般来说,使用Gazebo、Bullet、MuJoCo、Unity等工具模拟机器人和环境可以缓解上述限制。然而,毕竟,模拟并不完全是真实世界。即使场景是直接通过真实环境的3D扫描建立的,扫描中的离散物体也会像固定的背景物体一样,不会像真实世界的物体那样影响输入。回应。因此,关键问题是提供一个高质量的3D对象模型库,这些模型可以合并到物理和视觉建模中,以提供深度学习所需的多样性。为了解决这个问题,Google的研究人员提出了GoogleScannedObjects(GSO)数据集,这是一个精选的1,000多个3D扫描家用物品的集合,可供IgnitionGazebo、Bullet模拟器和其他可以读取工具的工具使用SDF模型格式。在一篇论文中,研究人员介绍了数据集的收集、管理、扩展等。论文链接:https://arxiv.org/pdf/2204.11918.pdf据不完全统计,GSO数据集已经发表了10个项目的12篇论文,包括计算机视觉、计算机图形学、机器人操纵、机器人导航、和3D形状处理。应用于:本研究的主要贡献是:提出谷歌扫描对象数据集;3D扫描流水线设计;3D扫描管理和发布流程;该数据集在研究领域的影响。数据集的创建GSO数据集起源于谷歌2011年的云机器人项目,目的是让机器人基于常见家居物体的高保真3D模型,能够识别和抓取自身环境中的物体。然而,除了对象识别和机器人抓取之外,3D模型还有许多用途,包括用于物理模拟的场景构建和用于最终用户应用程序的3D对象可视化。因此,GoogleResearch启动了一个项目,旨在为Google带来大规模的3D体验,以比传统商业级产品摄影更低的成本收集大量家居用品的3D扫描图。它是一个端到端的项目,包括对象获取、新颖的3D扫描硬件、高效的3D扫描软件、快速3D渲染的质量保证、网络和移动浏览器以及人机交互研究。收集数据后,研究人员建立了一个管道,以各种格式提供数据。3D扫描管道即使仅限于家用物品领域,3D扫描也面临着独特的挑战,包括高效的物理扫描设置、物体照明、相机可靠性、扫描仪性能、色彩匹配、纹理渲染以及处理光学不一致的材料,例如关闭-白色、有光泽或透明的表面。专用3D扫描硬件是劳动密集型且不符合成本效益。对于大规模扫描,需要一些更好用和可靠的工具。因此,研究人员设计了自己的专用扫描硬件和软件(图2),能够在10分钟内扫描物体并生成高分辨率模型。控制光线的物理外壳(图2b)使用两个机器视觉相机和一个用于结构光扫描的投影仪来捕捉3D几何形状,并使用一个单独的DSLR高分辨率相机来捕捉产品友好光线中的纹理。到项目第一年结束时,它每周可以进行400多次扫描,在此过程中,研究团队总共进行了10万360度照片旋转和1万个独特物体的全3D扫描。图2.图3:作为校准过程的扫描。(a)校正模式使2D管道能够精确对齐相机。(b)计算机控制的投影仪为3D扫描对象创建类似的图案。(c)合适的图案可以实现亚像素精度的位置检测。(d)提取扫描对象的完整3D形状。图4:扫描的项目需要通过质量检查。(a)许多项目被捕获为高质量的封闭流形网格。(b)有些物体很少产生无效的网格,但有时会变形。模拟模型转换这些原始扫描模型使用协议缓冲区元数据、非常高分辨率的可视化,其格式不适合模拟。物体的某些物理属性(例如质量)会被捕获,但表面属性(例如摩擦力)不会在元数据中表示。为了在仿真系统中使用这些扫描模型,每个模型都通过以下步骤的管道:过滤掉无效对象。分配对象名称。验证对象网格。计算物理性质。构造碰撞体。减小模型尺寸。创建一个SDF模型。创建缩略图。打包模型。DatasetAttributeCompositionGSO数据集包含1030个扫描对象和相关元数据,共计13GB,在CCBY4.0License下许可。表III.1分解了数据集中的模型类别。表III.1优势自动化流水线无需人工处理即可快速生成大量模型。因为这些模型是扫描的而不是手工建模的,它们是真实的而不是理想的,这降低了将学习从模拟转移到现实世界的难度。与其他具有不透明平台的扫描仪不同,扫描仪的玻璃平台允许从各个侧面扫描模型,包括底座。同样,从环境中提取的模型通常缺少遮挡区域,例如充当关节的基地。由于扫描仪根据投影图案而不是深度相机数据重建表面形状,因此生成的网格具有高保真度。光滑的表面是光滑的,轮廓边缘是准确的(图5)。相反,从RGB-D数据获得的网格可能会出现斑点和不规则,尤其是在轮廓上。Fig.5Constraints同时,这个数据集也有一些局限性:扫描仪的捕获区域不能容纳比面包箱大的物体(约50厘米),所以这个数据集不包括其他数据集中更大的物体,例如椅子、汽车等或飞机。此外,扫描分辨率有限,因此无法以合理的保真度对非常小的对象进行建模。此外,生成的纹理是漫反射的:无法表示高度镜面反射或透明的对象,生成的结果也不理想。更多细节可以在原始论文中找到。
