当前位置: 首页 > 科技观察

抛开热图回归,滑铁卢大学提出了一种多人姿势估计的新方法

时间:2023-03-16 12:07:02 科技观察

关键点估计是一项计算机视觉任务,涉及定位图像中的兴趣点。关键点估计作为计算机视觉工作中研究最多的课题之一,在相关应用中发挥着重要作用,包括人体姿态估计、手部姿态估计、动作识别、目标检测、多人跟踪、运动分析等。最常见的估计关键点位置的方法是生成目标字段的热图。然而,热图回归作为检测和定位关键点的标准方法也存在以下不足:首先,该方法存在量化误差;关键点预测的准确性本质上受到热图空间分辨率的限制。因此,热图越大越好,但需要额外的上采样操作和昂贵的高分辨率处理;即使是大型热图,也需要特殊的后处理步骤来优化关键点预测,这会减慢推理速度。速度;其次,当相同类型(即类别)的两个关键点彼此靠近时,重叠的热图信号可能会被误认为是单个关键点。基于此,一些工作已经开始研究替代的、无热图的关键点检测方法。近日,加拿大滑铁卢大学的研究人员提出了一种新的单阶段多人关键点和姿态检测方法KAPAO。使用TITANXpGPU进行实时计算,720p视频的推理速度可以达到每秒35帧,1080p视频可以达到每秒20帧。当不使用测试时间增强(TTA)时,KAPAO比以前的单阶段方法(如DEKR和HigherHRNet)更快、更准确。在滑铁卢大学的这项研究中,研究人员提出了一种新的无热图关键点检测方法KAPAO(KeypointsAndPosesAsObjects),并将其应用于单阶段多人人体姿态估计。其中单个关键点和空间相关关键点集(即姿势)被建模为基于锚点的密集检测框架中的对象。这种将关键点和姿势视为对象的KAPAO方法可以同时检测关键点对象和姿势对象,并使用简单的匹配算法融合结果。通过检测姿势对象,本研究统一了人体检测和关键点估计,从而产生了一种有效的单阶段多人人体姿势估计方法。论文地址:https://arxiv.org/abs/2111.08557GitHub地址:https://github.com/wmcnally/kapao试用地址:https://huggingface.co/spaces/akhaliq/KapaoKAPAO方法KAPAO方法使用YOLO(YouOnlyLookOnce)基于最近实现的密集检测框架,包括高效的网络设计。此外,由于KAPAO不会生成大型且昂贵的热图,因此它在准确性和推理速度方面优于以前的单阶段方法,尤其是在不使用TTA的情况下。KAPAO方法的基本原理如下图所示:KAPAO将一个RGB图像I映射到一组包含预测姿势对象和关键点对象的输出网格,并使用经过多任务损失函数L训练的密集检测网络N样本目标:人体姿势目标(蓝色)、关键点目标(红色)、无目标(绿色)和“?”值不用于损失计算。下图是在TITANXpGPU上实时运行KAPAO-S进行视频推理的效果:KAPAO-S可以在TITANXpGPU上实时运行,比本地25帧/秒的帧率要快,但是图中没有画出脸上的关键点。实验结果这项研究通过实验证明,KAPAO比以前的方法明显更快、更准确,而以前的方法受到热图后处理的强烈影响。此外,在没有测试时间增加(TTA)的情况下,KAPAO在真实世界设置中的准确速度方面明显更好。大型模型KAPAO-L在没有TTA的情况下在MicrosoftCOCOKeypoints验证集上达到70.6AP,比精度低4.0AP的单阶段模型快2.5倍。图1:KAPAO与单阶段多人人体姿态估计SOTA方法DEKR、HigherHRNet无TTA的精度-速度比较结果。该研究在COCOtest-dev上比较了KAPAO与一阶段和两阶段方法的准确性,结果如下表所示。为了探索KAPAO在拥挤场景中的表现,该研究在CrowdPose测试集上对比了几个模型,结果表明KAPAO在存在遮挡的情况下也表现出色,在所有指标上都超越了之前所有的单阶段方法。在分析APE、APM和APH时,KAPAO对于拥挤场景的优势是显而易见的。具体来说,KAPAO融合关键点目标和姿态目标带来的精度提升如下表4所示:为了展示KAPAO在没有TTA的情况下的优势,图6绘制在COCOval2017上,KAPAO-Svs.Fusionrateforeachkeypointtype:有兴趣的读者可以阅读原文了解更多细节。