平面图可用于可视化空间、规划路线和交流建筑设计。例如,进入新建筑物的机器人可以使用平面图快速感知总体布局。创建平面图通常需要完整的布局,以便3D传感器和相机可以捕获整个空间。1月11日消息,据外媒报道,近日,来自Facebook、得克萨斯大学奥斯汀分校和卡内基梅隆大学的研究人员正在探索一种人工智能技术,利用视觉和音频学习,从短视频重建平面图在剪辑中。研究人员断言,音频提供了空间和语义信号,可以补充图像的映射功能。他们说,这是因为声音本质上是由物体的几何形状驱动的。声音从表面反射回来,揭示了远远超出摄像机视野的房间的形状。从远处听到的声音,甚至是多个房间之外的声音,都可以揭示自由空间的存在,声音对象可能存在于此。此外,从不同方向听到的声音揭示了基于这些声音所代表的活动或事物的布局。例如,淋浴的声音可能暗示浴室的方向,而微波炉的声音暗示厨房的方向。研究人员的方法被称为AV-Map,旨在将短视频与多声道音频转换为2D平面图。机器学习模型利用音频和视频数据序列来推理平面图的结构和语义,最后使用解码组件融合音频和视频信息。AV-Map生成的平面图远远超出了视频中直接可见的区域,显示了自由空间和占用区域,分为离散的语义房间标签,如家庭房间和厨房。该团队在来自Matternet3D和SoundSpaces数据集的数字环境中试验了两种设置,主动和被动。在第一个实验中,当它穿过样板房的房间时,虚拟相机被用来发出已知的声音。在第二种情况下,仅依靠家中物体或人发出的自然声音。研究人员表示,在未来的工作中,计划考虑扩展多层平面图并将绘图想法与主动控制相机的机器人联系起来。
