本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。在2D图像中进行3D物体检测很难吗?现在,您可以使用手机或实时进行。这就是GoogleAI今天发布的MediaPipeObjectron,一个可以检测实时3D物体的管道。拆开来看:MediaPipe是一个开源的跨平台框架,用于构建以不同模式处理感官数据的管道。Objectron在移动设备上实时计算面向对象的3D边界框。日常生活中的物体都可以检测出来,来看看效果吧。它可以在移动设备上实时确定物体的位置、方向和大小。该管道检测2D图像中的对象,然后使用机器学习模型来估计其姿势和大小。那么,它究竟是如何做到的呢?在现实世界中获取3D数据我们知道,与2D相比,3D数据集非常有限。为了解决这个问题,GoogleAI的研究人员使用移动增强现实(AR)会话数据开发了一种新的数据管道。目前,大多数智能手机现在都配备了增强现实功能,在此过程中捕捉额外的信息,包括相机姿势、稀疏3D点云、估计的光照和平面。为了标记地面实况数据,研究人员构建了一个新的注释工具并将其与AR会话数据一起使用,允许注释者快速标记对象的3D边界框。此工具使用分屏视图来显示2D视频帧,如下所示。左边是叠加的3D边界框,右边是3D点云的视图、相机位置和检测平面。注释器在3D视图中绘制3D边界框,并通过查看2D视频帧中的投影来验证其位置。对于静态物体,在一帧中只需要标注一个物体,它的位置会使用来自AR会话数据的地面实况相机姿态信息传播到所有帧。这使得该过程非常高效。AR合成数据生成为了提高预测的准确性,一种比较流行的方法是用合成的3D数据“填充”真实世界的数据。但这往往会产生非常不真实的数据,甚至需要大量的计算工作。GoogleAI提出了一种新的方法——增强现实合成数据生成(ARSyntheticDataGeneration)。这使研究人员能够利用相机姿势、检测到的平面和估计的照明来生成物理上可能的位置和具有与场景匹配的照明的位置。这种方法产生了高质量的合成数据,当与真实数据一起使用时,能够将准确性提高约10%。用于3D对象检测的机器学习管道为实现这一目标,研究人员构建了一个单阶段模型,可根据RGB图像预测对象的姿势和物理尺寸。模型主干具有基于MobileNetv2的编码器-解码器架构。还采用多任务学习方法通??过检测和回归联合预测物体形状。对于形状任务,对象的形状信号是从可用的地面实况注释(例如分割)中预测的;对于检测任务,使用带注释的边界框,并将高斯分布拟合到框,以框质心为中心,标准差与框大小成比例。检测的目标是预测这个分布,其峰值代表物体的中心位置。回归任务估计边界框8个顶点的2D投影。为了获得边界框的最终3D坐标,还使用了复杂的姿态估计算法(EPnP),可以在不知道对象大小的情况下恢复对象的3D边界框。使用3D边界框,可以轻松计算出物体的姿态和大小。这个模型也非常轻量级,可以在移动设备上实时运行。MediaPipe中的检测和跟踪在移动设备上使用此模型时,由于每个帧中3D边界框的模糊性,模型可能会“抖动”。为了缓解这种情况,研究人员采用了最近发表在“2DBoundaries”中的检测+跟踪框架。这个框架减少了在每一帧上运行网络的需要,允许更大和更准确的模型,同时保持管道的实时性能。为了进一步提高移动管道的效率,仅每隔几帧运行一次模型推理。终于,这么好的项目,当然开源了!点击下面传送门链接,去试试吧~传送门GitHub项目地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.mdGoogleAIBlog:https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html
