当前位置: 首页 > 科技观察

手机安装的3D姿态估计,模型尺寸只有同类的1-7,但误差只有5厘米

时间:2023-03-23 12:08:18 科技观察

本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处。长期以来,3D姿态估计一直在疯狂地追求准确性。但是在精度提高的同时,也带来了计算成本的增加。论文中提出的刚刚被CPVR2021接受的模型,MobileHumanPose可以同时做到小而好。还是手机上能hold住的那种。来感受下这种感觉:这种动作的健美操是没问题的:据了解,这个模型的大小只有基于ResNet-50的模型的1/7,计算能力达到了3.92GFLOPS。而每个关节的平均位置误差(MPJPE)只有5厘米左右。那么这个模型是如何在有限的算力下产生优异性能的呢?基于encoder-decoder结构的改进这是一个在基本encoder-decoder结构基础上改进的模型。在用于全局特征提取的编码器和用于姿态估计的解码器的基础上,研究团队对其骨干网络、激活函数和Skip级联函数进行了修改。我们先来看看研究团队选择的骨干网络,MobileNetV2。他们在MobileNetV2的前四个反向残差块(ResidualBlock)处修改了通道大小,并获得了性能提升。接下来,PReLU函数用于实现激活函数,其中ai是学习参数,yi是输入信号。该函数中的可学习参数可以在网络的每一层获得额外的信息,从而提高在人体姿势估计任务中使用参数化PReLU时的性能。△修改激活函数后的baseline现在模型的效率不低,但是考虑到推理速度,团队使用了Skipconcatenation结构。这种结构可以在不降低性能的情况下从编码器导出低级特征信号(Lowlevelfeaturesignal)到解码器。参数数量减少5倍,计算成本降低1/3。团队使用Human3.6M和MuCo-3DHP作为三维人体姿态数据集,他们提出了MobileNetV2大小的两个模型。在Human3.6M上,MobileNetV2大型模型实现了51.44mm的平均每关节位置误差。并且参数数量为4.07M,比同类模型的20.4M(chen)减少了5倍,计算成本为5.49GFLOPS,不到同类模型(14.1G)的1/3。针对多人3D姿态估计任务,研究人员使用RootNet估计每个人的绝对坐标,并在MuPoTS的20个场景中进行实验:实验结果证明,与陈泽瑞等研究人员提出的3D人体姿态相比whoobtainedECCV2020Estimationmethod,MobileNetV2在一般场景下表现更好,在少数场景下取得最佳表现:在模型效率方面,MobileNetV2的大模型效率为2.24M/3.92GFLOPS,远超13.0M/3.92GFLOPS同类机型10.7GFLOPS(陈泽瑞)。小型模型还可以实现56.94毫米的平均每个关节位置误差,具有224万个参数和3.92GFLOPS的计算成本。作者简介论文的三位作者均毕业于韩国先进技术学院,第一作者SangbumChoi是该校电气电子工程硕士。论文:https://openaccess.thecvf.com/content/CVPR2021W/MAI/html/Choi_MobileHumanPose_Toward_Real-Time_3D_Human_Pose_Estimation_in_Mobile_Devices_CVPRW_2021_paper.html开源地址:[1]https://github.com/SangbumChoi/MobileHumanPose[2]https://github.com/ibaiGorordo/ONNX-Mobile-Human-Pose-3D