当前位置: 首页 > 科技观察

阿里创新3D定位图压缩算法,论文成果入选顶级会议CVPR2022

时间:2023-03-19 15:33:11 科技观察

本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系转载来源。5月20日消息,阿里巴巴达摩院XR实验室提出了一种全新的3D定位地图压缩算法,可以在保证视觉定位精度的情况下,将地图压缩250倍以上,使其可以存储在手机中和其他端侧设备。相关论文被计算机视觉顶级会议CVPR2022收录。据悉,该实验室不断优化自主研发的3D算法,在建图、定位等核心技术模块上屡创佳绩。多篇论文被国际顶级会议收录。3D视觉定位是沉浸式互联网的核心技术之一。标准的3D视觉定位方法需要预先构建特定场景的3D地图,以便与摄像头拍摄的2D图片的特征点进行匹配,从而计算出用户的位置和姿态。但是,3D地图体积庞大,对存储空间要求高,无法部署在内存和带宽有限的手机等移动设备上。业界对3D地图的轻量化做了很多探索。达摩院XR实验室在前人工作的基础上,提出了一种新方法SceneSqueezer,可以将3D地图压缩250倍以上,并将精度损失控制在小范围内。尺寸和定位精度的平衡。SceneSqueezer使用分层策略来压缩3D地图。根据论文SceneSqueezer:LearningtoCompressSceneforCameraRelocalization,达摩院团队使用分层策略来压缩3D地图。首先,使用成对的共同可见度信息聚合数据库图像。分类,将场景分成多个簇,分别进行压缩;其次,根据最终的姿态估计精度,学习选择每张图片的特征点;最后通过特征量化的方法对特征点的描述进行压缩。该算法在CambridgeLandmarks和AachenDay-Night等室外场景数据集上取得了优于现有方法的性能。据达摩院XR实验室高级算法专家董子龙介绍,XR团队自主研发了3D算法体系,并在测绘、定位等核心技术模块上多次取得突破。多篇论文入选今年topconference。例如,QuadtreeAttentionforVisionTransformer提出了四叉树注意力机制,提升了基于视觉任务的Transformer模型的性能,入选深度学习顶级会议ICLR2022;NeuralWindowFully-connectedCRFsforMonocularDepthEstimation提出了一种单摄像头深度估计算法,使用消费级全景相机即可完成深度估计任务,大大降低了3D建图的成本。文章被CVPR2022录用。杭州XR实验室文三街达摩院XR实验室开发的“AR打卡”项目是达摩院新成立的实验室,致力于研究下一代互联网技术。团队研发的AR、VR技术已在全球电子商务、数字城市等场景落地,如为杭州文三数字生活街区构建1:1还原3D“数字孪生体”,开发杭州奥体中心10万平方米地下停车场AR导航服务上线。