当前位置: 首页 > 科技观察

精准高效估计多人3D姿态,美图北航分布式感知单阶段模型入选CVPR

时间:2023-03-17 21:52:07 科技观察

近日,计算机视觉顶级会议CVPR2022公布了会议录取结果。美图图像研究院(MTLab)与北航可口可乐实验室(CoLab)合作发表的论文被录用。本文针对具有挑战性的多人3D人体姿势估计问题提出了一种突破性的分布感知单阶段模型。该方法通过网络前向推理同时获取人体在3D空间中的位置信息和对应的关键点信息,简化了预测过程,提高了效率。此外,该方法有效地学习了人体关键点的真实分布,进而提高了基于回归的框架的准确性。多人3D人体姿态估计是当前的研究热点,具有广泛的应用潜力。在计算机视觉中,基于单张RGB图像的多人3D人体姿态估计问题通常采用自上而下或自下而上的两阶段方法来解决。然而,两阶段法存在大量冗余计算和复杂的后处理效率低下的问题。此外,现有方法缺乏对人体姿势数据分布的了解,因此无法准确解决从2D图像到3D位置的病理问题。以上两点限制了现有方法在实际场景中的应用。美图影像研究院(MTLab)和北京航空航天大学可乐实验室(CoLab)在CVPR2022发表的论文提出了一种分布感知的单阶段模型,并使用该模型从单个RGB估计多个RGB图像图像。3D相机空间中个人的人体姿势。该方法将3D人体姿态表示为2.5D人体中心点和3D关键点偏移,以适应图像空间的深度估计。同时,这种表示统一了人体位置信息和对应的关键点信息,使得Single-stage多人3D姿态估计成为可能。论文地址:https://arxiv.org/abs/2203.07697另外,该方法在模型优化过程中学习了人体关键点的分布,为关键点位置的回归预测提供了重要的指导信息,从而基于回归框架提高准确性。该分布学习模块可以在训练过程中通过最大似然估计与姿态估计模块一起学习,测试过程中去除该模块,不会增加模型推理计算量。为了降低学习人体关键点分布的难度,该方法创新性地提出了一种迭代更新策略,逐步逼近目标分布。该模型以完全卷积的方式实现,可以进行端到端的训练和测试。这样一来,该算法可以有效准确地解决多人3D人体姿态估计问题,在达到接近两阶段法精度的同时,也大大提高了速度。背景多人3D人体姿态估计是计算机视觉中的经典问题,广泛应用于AR/VR、游戏、运动分析、虚拟试衣等领域。近年来,随着Metaverse概念的兴起,该技术备受关注。目前通常采用两阶段的方法来解决这个问题:自上而下的方法,首先检测图片中多个人体的位置,然后使用单人3D姿态估计模型来预测他们的姿态对于每个检测到的人;向上法,即先检测出图片中所有人的3D关键点,然后通过关联将这些关键点赋值给对应的人体。两阶段方法虽然取得了较好的精度,但需要通过冗余计算和复杂的后处理依次获取人体位置信息和关键点位置信息,使得速率难以满足实际场景的部署需求,因此很多人体3D姿态估计算法过程亟待简化。另一方面,在没有数据分布先验知识的情况下,从单个RGB图像估计3D关键点位置,尤其是深度信息是一个病态问题。这使得应用于2D场景的传统单阶段模型无法直接扩展到3D场景,因此学习和获取3D关键点的数据分布是高精度多人3D人体姿态估计的关键。为了克服上述问题,本文提出了一种分布感知单阶段模型(Distribution-AwareSingle-stagemodel,DAS)来解决基于单幅图??像的多人3D人体姿态估计的病态问题。DAS模型将3D人体姿态表示为2.5D人体中心点和3D人体关键点偏移,有效适应基于RGB图像域的深度信息预测。同时,它还统一了人体的位置信息和关键点的位置信息,使得基于单目图像估计单阶段多人3D姿态成为可能。此外,DAS模型在优化过程中学习了3D关键点的分布,为3D关键点的回归提供了有价值的指导信息,从而有效提高了预测精度。此外,为了缓解关键点分布估计的难度,DAS模型采用迭代更新策略,逐步逼近真实分布目标。这样,DAS模型可以高效准确地获取个体的多个3D人体姿态估计结果。在单阶段多人3D姿态估计模型的实现中,基于回归预测框架构建了DAS模型。对于给定的图片,DAS模型通过前向预测输出图片中包含的人物的3D人体姿态。DAS模型将人体的中心点表示为两部分:中心点置信图和中心点坐标图,如图1(a)和(b)所示,其中DAS模型使用中心点置信图定位2D图像坐标系中人体投影的中心点位置,中心点坐标图用于预测人体中心点在3D相机坐标系中的绝对位置。DAS模型将人类关键点建模为关键点偏移图,如图1(c)所示。图1:用于多人3D人体姿态估计的分布感知单阶段模型流程图。DAS模型将中心点置信度图建模为二值图像,图片中的每个像素表示人体的中心点是否出现在该位置,如果出现则为1,否则为0。DAS模型将中心点的坐标图建模为稠密图,图中的每个像素编码出现在该位置的人的中心在x、y、z方向的坐标。关键点偏移图的建模方式与中心点坐标图类似。图中的每个像素编码了该位置出现的人体关键点相对于人体中心点在x、y、z方向上的偏移量。DAS模型可以在网络的前向过程中并行输出上述三种信息图,从而避免了冗余计算。此外,DAS模型可以利用这三种信息图谱简单地重建出多人的3D姿态,也避免了复杂的后处理过程。与两阶段方法相比,这种紧凑简单的单阶段模型可以获得更好的结果。效率极佳。对于分布感知学习模型的回归预测框架的优化,现有工作多采用传统的L1或L2损失函数,但研究发现这种有监督训练实际上是假设关键点的数据分布人体的分布满足拉普拉斯分布或高斯分布。分布前提下的模型优化[12]。然而,在实际场景中,人体关键点的真实分布极其复杂,上述简单假设与真实分布相去甚远。与现有方法不同,DAS模型在优化过程中学习了3D人体关键点分布的真实分布,指导关键点回归预测的过程。考虑到真实分布无法被追踪,DAS模型使用NormalizingFlow来达到估计模型预测结果概率的目的,从而生成适合模型输出的分布,如图2所示。图2:归一化流。分布感知模块可以在训练过程中通过最大似然估计的方法与关键点预测模块一起学习。学习完成后,分布感知模块将在预测过程中被移除。这种分布式感知算法可以在不增加额外计算量的情况下提高回归预测模型的准确性。此外,用于人体关键点预测的特征是在人体中心点提取的。该特征对于距离中心点较远的人体关键点表示能力较弱,与目标空间不一致的问题会造成较大的预测误差。.为了缓解这个问题,算法提出了迭代更新策略,以历史更新结果为起点,围绕中间结果对预测值进行积分,逐渐逼近最终目标,如图3所示。图3:迭代优化策略。算法模型通过FullyConvolutionalNetworks(FCNs)实现,训练和测试过程可以端到端的方式进行,如图4所示。图4:分布式感知单级多网络架构-person3D人体姿势估计。根据实验结果,如图5所示,与现有的最先进的两阶段方法相比,单阶段算法可以达到接近甚至更好的精度,并且可以大大提高速度,这证明了它在解决人体3D人体姿态估计问题中的多重优势是有效的。图5:与现有SOTA两阶段算法的比较结果。详细实验结果见表1和表2。表1:CMUPanopticStudio数据集结果对比。表2:MuPoTS-3D数据集结果的比较。从单阶段算法的可视化结果来看,如图6所示,该算法能够适应不同的场景,如姿态变化、身体截断、背景杂乱等,从而产生准确的预测结果,进一步说明了算法的鲁棒性。图6:可视化结果。总结在本文中,美图和北航的研究人员针对具有挑战性的多人3D人体姿态估计问题,创新性地提出了一种分布感知单阶段模型。与现有的top-down和bottom-up两阶段模型相比,该模型通过网络前向推理,可以同时获取人体的位置信息和人体对应关键点的位置信息,从而有效简化预测过程,同时克服了现有方法在高计算成本和高模型复杂度方面的缺点。此外,该方法成功地将标准化流引入到多人3D人体姿态估计任务中,在训练过程中学习人体关键点的分布,并提出迭代回归策略来缓解分布学习的难度,达到目标逐渐接近目标。这样,算法可以获得数据的真实分布,有效提高模型的回归预测精度。研究团队该论文由美图影像研究院(MTLab)和北京航空航天大学可乐实验室(CoLab)的研究人员共同提出。美图影像研究院(MTLab)是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品落地的团队。提供核心算法支持,通过前沿技术推动美图产品的发展。被誉为“美图科技中心”。Citation:[1]JPAgnelli,MCadeiras,EstebanGTabak,CristinaVilmaTurner,andEricVanden-Eijnden.Clusteringandclassificationthroughnormalizingflowsinfeaturespace.MultiscaleModeling&Simulation,2010.[12]JiefengLi,SiyuanBian,AilingZeng,CanWang,BoPang,WentaoLiu,andCewuLu.Humanposeregressionwithresiduallog-likelihoodestimation.InICCV,2021.[15]JiahaoLinandGimHeeLee.Hdnet:Humandepthestima-tionformulti-personcamera-spacelocalization.InECCV,2020.[47]JiananZhen,QiFang,JiamingSun,WentaoLiu,WeiJiang,HujunBao,andXiaoweiZhou.Smap:Single-shotmulti-personabsolute3dposeestimation.InECCV,2020.[48]XingyiZhou,DequanWang,andPhilippKra?henbu?hl.Ob-jectsaspoints.arXivpreprintarXiv:1904.07850,2019.