当前位置: 首页 > 科技观察

谷歌AI最新3D数据集,15000张动图,让AR主宰你的生活

时间:2023-03-19 18:47:10 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。你见过3D物体数据集吗,你见过移动的3D物体数据集吗?每个动态视频都是以目标为中心拍摄的,不仅带有一个整体标记的边界框,每个视频还带有相机位姿和稀疏点云。这是谷歌开源的3D对象数据集Objectron,包含来自五大洲十个国家的15000个短视频样本和超过400万张标注图像。谷歌认为,在3D目标理解领域,2D方面缺乏像ImageNet这样的大数据集,而Objectron数据集可以在一定程度上解决这个问题。数据集一经推出,就有1600名网友点赞。有网友调侃说谷歌一想到“谷歌”数据集就发布了。一些前团队成员表示,他们很高兴看到这样的数据集和模型,为AR带来了进步的可能。此外,谷歌还公布了用Objectron数据集训练的3D物体检测模型,用于鞋子、椅子、杯子和相机四类。来看看这个数据集包含了什么,以及Google提供的3D目标检测方案~(项目地址见文末)9类物体,对AR非常友好。目前,该数据集中包含的3D物体样本包括自行车、书籍和瓶子。、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子。当然,这个数据集不仅仅是一些以物体为中心的视频和图片。具有以下特点:标注标签(3D目标立体边界框)数据AR数据(相机姿态,稀疏点云,二维表面)数据预处理(图像格式为tf.example,视频格式为SequenceExample)支持评估通过脚本实现3DIoU指标,支持Tensorflow、PyTorch、JAX通过脚本进行数据加载和可视化,包括“HelloWorld”示例示例支持ApacheBeam,用于处理数据集中所有可用样本的索引谷歌云基础设施,包括训练/测试部分,方便下载图片部分。画风基本是这样,也标注的很详细:而在视频中,不仅有各种角度(从左到右,从下到上)拍摄的以目标为中心的剪辑:还有数量不等的视频types(onetarget,ormoretarget):谷歌希望通过发布这个数据集,研究界能够进一步突破3D物体理解领域,以及无监督学习等相关研究应用。如何使用?拿到数据集的第一时间谷歌“实例演示”,不知道好不好用,总觉得有点不知所措?不用担心,谷歌已经为我们尝试了这个数据集的训练效果。看起来不错:此外,谷歌还给出了经过训练的3D物体检测模型。(传输见文末)算法主要包括两部分。第一部分是Tensorflow的2D目标检测模型,用来“找到物体的位置”;第二部分进行图像裁剪,估计3D物体的boundingbox(同时计算一帧的2D裁剪,所以不需要每一帧都跑),整体结构如下:在模型的评估中,谷歌使用Sutherland-Hodgman多边形裁剪算法计算两个立体边界框的交集,并计算两个立方体的交集体积,最终计算出3D物体检测模型的IoU。简单来说,两个立方体重叠的体积越大,3D物体检测模型就越好。该模型是GoogleMediaPipe的一部分,后者是一个开源的跨平台框架,用于构建管道以处理不同形式的感官数据。其推出的MediaPipeObjectron实时3D目标检测模型,可以用移动设备(手机)进行实时目标检测。看,(玩的多开心)实时目标检测的效果还不错:除了谷歌推出的数据集,其他的3D数据集,视觉3D领域有很多不同类型的数据集目标,每个数据集都有自己的特点。例如斯坦福大学提出的ScanNetV2是一个室内场景数据集,而ScanNet是一个RGB-D视频数据集,有21个目标类和1513个收集的场景数据,可用于语义分割和目标检测任务。目前在自动驾驶领域非常流行的KITTI数据集也是3D数据集。是目前最大的自动驾驶场景下的计算机视觉算法评估数据集,包含了城市、乡村、高速公路等采集的真实图像数据。.此外,还有Waymo、SemanticKITTI、H3D等数据集,也应用于不同的场景。(比如SemanticKITTI,通常专门用于自动驾驶的3D语义分割)无论是视频还是图像,这些数据集的单个样本基本包含多个目标,使用场景也和谷歌的Objectron不同.感兴趣的朋友,可以通过下面的传送门浏览谷歌最新的3D物体检测数据集和相关模型~Objectron数据集传送门:https://github.com/google-research-datasets/Objectron/4个物体的3D物体检测模型:https//google.github.io/mediapipe/solutions/objectron