当前位置: 首页 > 科技观察

全身追踪,不怕遮挡,CMU两位华人基于WiFi信号做了一个DensePose

时间:2023-03-14 19:23:36 科技观察

这几年,在自动驾驶和VR等应用的推动下,2D和3D传感器(比如RGB传感器,使用激光雷达或雷达)在执行人体姿势估计方面取得了很大进展。然而,这些传感器在技术上和实践上都存在一些局限性。首先,成本高,普通家庭或小企业往往负担不起激光雷达和雷达传感器的成本。其次,这些传感器对于日常和家庭使用来说太耗电了。至于RGB相机,狭窄的视野和恶劣的照明条件会严重影响基于相机的方法。遮挡成为阻止基于相机的模型在图像中生成合理姿势预测的另一个障碍。室内场景尤其棘手,家具经常挡住人。更重要的是,隐私问题阻碍了这些技术在非公共场所的使用,许多人不愿意在家中安装摄像头来记录他们的行为。但在医疗领域,出于安全、健康等原因,很多老年人有时不得不借助摄像头等传感器进行实时监控。近日,CMU的三位研究人员在论文《DensePose From WiFi》中提出,在某些情况下,WiFi信号可以作为RGB图像的替代品,用于人类感知。照明和阴影对用于室内监控的WiFi解决方案影响不大。WiFi信号有助于保护个人隐私,必要的相关设备可以合理的价格购买。至关重要的是,许多家庭已经拥有Wi-Fi,因此该技术可能会扩展到监测老年人的健康状况或识别家中的可疑行为。论文地址:https://arxiv.org/pdf/2301.00250.pdf研究人员想要解决的问题如下图1第一行所示。给定3个WiFi发射器和3个相应的接收器,是否有可能在多人的杂乱环境中检测和恢复密集的人体姿势对应关系(图1的第4行)?需要注意的是,很多WiFi路由器(比如TP-LinkAC1750)都有3根天线,所以这种方法只需要2台这样的路由器。每个路由器的成本约为30美元,这意味着整个设置仍然比LiDAR和雷达系统便宜得多。为了实现图1第四行所示的效果,研究人员从计算机视觉的深度学习架构中得到启发,提出了一种可以基于WiFi进行密集姿态估计的神经网络架构,实现了遮挡和多-person在场景中仅使用WiFi信号来估计密集姿势。下图左侧显示基于图像的DensePose,右侧显示基于WiFi的DensePose。来源:推特@AiBreakfast另外,值得一提的是第一篇和第二篇论文都是中文的。论文第一作者耿嘉琪于去年8月获得CMU机器人学硕士学位,第二作者黄东现为CMU高级项目科学家。方法介绍使用WiFi生成人体表面UV坐标需要三个组成部分:首先,通过对原始CSI(Channel-state-information,表示发射信号波与接收信号波的比值)信号进行清理幅度和相位阶跃处理;然后,将处理后的CSI样本通过双分支编码器-解码器网络转换为2D特征图;然后将2D特征图输入到称为DensePose-RCNN的框架(主要是将2D图像转换为3D人体模型),以估计UV图。不仅原始CSI样本有噪声(见图3(b)),而且大多数基于WiFi的解决方案都忽略了CSI信号相位并关注信号的幅度(见图3(a))。然而,丢弃相位信息会对模型性能产生负面影响。因此,本研究执行消毒过程以获得稳定的相位值,以便更好地利用CSI信息。为了从一维CSI信号估计空间域中的UV映射,首先需要将网络输入从CSI域转换到空间域。本文使用ModalityTranslationNetwork完成(如图4)。经过一些操作后,获得了由WiFi信号生成的图像域中的3×720×1280场景表示。本研究在图像域获得3×720×1280的场景表示后,采用类似于DensePose-RCNN、WiFi-DensePoseRCNN的网络架构来预测人体UV图。具体来说,在WiFi-DensePoseRCNN(图5)中,该研究使用ResNet-FPN作为主干,并从获得的3×720×1280图像特征图中提取空间特征。然后将输出馈送到区域建议网络。为了更好地利用来自不同来源的互补信息,WiFi-DensePoseRCNN还包括两个分支,DensePosehead和Keypointhead,之后将处理结果合并并输入到refinementunit。然而,从随机初始化开始训练ModalityTranslationNetwork和WiFi-DensePoseRCNN网络需要花费大量时间(大约80小时)。为了提高训练效率,本研究将基于图像的DensPose网络迁移到基于WiFi的网络(详见图6)。直接用基于图像的网络权重初始化基于WiFi的网络是行不通的,因此,本研究首先训练一个基于图像的DensePose-RCNN模型作为教师网络,学生网络由模态转换网络和WiFi-DensePoseRCNN组成.这样做的目的是最小化学生模型和教师模型生成的多层特征图之间的差异。实验表1的结果表明,基于WiFi的方法获得了非常高的AP@50值87.2,这表明该模型可以有效地检测出人体边界框的大致位置。AP@75相对较低,值为35.6,这表明人体细节没有得到完美估计。表2的结果表明,dpAP?GPS@50和dpAP?GPSm@50的值较高,而dpAP?GPS@75和dpAP?GPSm@75的值较低。这表明我们的模型在估计人体躯干的姿势方面表现良好,但在检测四肢等细节方面仍然很困难。表3和表4中的定量结果表明,基于图像的方法比基于WiFi的方法产生更高的AP。基于WiFi的模型的AP-m和AP-l值相差比较小。该研究表明,这是因为离相机较远的人在图像中占据的空间较少,从而导致有关这些物体的信息较少。相比之下,WiFi信号包含整个场景中的所有信息,而与主体的位置无关。