当前位置: 首页 > 科技观察

深度学习技术遇上人群计数

时间:2023-03-21 20:37:18 科技观察

【.com原稿】1.简介:如今,人工智能研究日趋火爆,机器学习技术也得到了飞速发展。图像人群统计作为机器感知领域的研究热点,在视频安防监控、C监控、图像识别、城市规划等领域有着广泛的应用。随着国家城市化进程的不断推进,城市拥挤的场景越来越多,由此引发的恐怖事件和踩踏事件也越来越多。因此如何实现准确的图像人群统计是一项至关重要的任务。然而,由于监控时场景内和场景间视角变化、图像遮挡、视角失真和缩放的干扰,人群统计的任务仍然非常具有挑战性。如何设计出准确、稳健的人群统计方法一直是研究人员过去一直在讨论的话题。2.人群统计现状近年来,深度学习技术和丰富的特征融合技术显着提高了视觉目标识别的检测精度。神经网络是目前深度学习中最流行的。它是一种动物神经网络行为特征,是一种分布式并行信息处理的算法数学模型,通过调整大量内部节点之间的互连关系来达到处理信息的目的。.在人工神经网络中,卷积算法用的最多,利用卷积神经网络处理图像数据可以更好的提高检测的准确率。众所周知,学习丰富的特征对于人群计数至关重要。然而,现有的基于神经网络的方法仅使用从最后一个卷积层提取的CNN特征,而忽略了CNN特征中包含的有用的层次信息。在本文中,提出了一种基于全卷积网络的CNN架构,它通过结合一些有用的卷积特征构建了一个端到端的密度图估计系统。使用这种组合可以有效地捕获复杂场景中的多尺度和多层次的信息。对于图1所示的稀疏人群图像,我们可以直观地用肉眼看到人数。对于图2所示的密集人群图像,由于众多人群之间的遮挡,我们无法通过肉眼轻易给出人数。所以我们必须使用计算机来完成这项任务。解决这类问题的传统技术是人工设计和标记各种特征,然后根据提取的特征训练一个基于回归的线性或非线性函数来统计人数。图1:稀疏人群图2:密集人群3.传统人群计数方法:传统人群计数算法大致可分为以下几类:基于检测的方法[1,2],基于回归的方法[3,4]和基于密度估计的方法[5]:(1)基于检测的方法很简单,只适用于稀疏场景。这些方法假定可以找到场景中的每个实体。一般的工作流程是使用partdetector对目标场景中的人进行逐一检测,然后统计人数。然而,这些方法相对不灵活并且需要昂贵的计算。此外,它们遭受严重的遮挡或高密度人群的存在,这大大降低了检测器的性能,导致计数系统的准确性低甚至失效。(2)基于回归的计数方法被广泛用于克服复杂场景中检测器设计的困难。这些方法的目的是了解低级功能与框架或框架区域中的人数之间的映射。基于回归的方法侧重于利用全局图像特征来捕获探测场景的全局属性。图像的低级特征的特点是使用各种手工制作的特征,如边缘、渐变和纹理。通过在人口统计和人口密度图之间建立回归模型,可以很容易地得到总体统计结果。(3)基于密度估计的方法旨在学习局部块特征与其对应的人群密度图之间的线性映射。与基于回归和基于检测的方法不同,基于密度估计的方法还在学习过程中结合了空间信息,并且可以通过对所得密度图中的任何区域进行积分来估计人群规模。自20世纪80年代以来,深度学习提供准确识别和预测的能力一直在提高。近年来随着深度学习的快速发展,人群统计的主要方法是利用深度学习,特别是利用卷积神经网络自动提取图像中的人群密度特征来估计人群数量不同的场景。卷积神经网络已经成为各种计算机视觉任务中最流行的技术,大量的CNN方法被提出用于人群计数,如MCNN[6]、FCN[7]、MSCNN[8]等。为了为了更准确地进行人群计数检测,我们必须使用深度学习技术,通过深度学习神经网络算法模型对图像人群进行计数。文献[8]提出了一种全卷积网络结构的深度神经网络,并在部分数据集上取得了最新成果,也可以看作是MCNN的扩展。虽然之前已经探索过全卷积网络的结构,但是已经解决了图像缩小和变形导致的视觉失真等问题。然而,这种全卷积网络结构仍然不能很好地处理尺度变化,只能使用最后的卷积层来估计人群规模。为了解决这些问题,我们提出了一种新的用于人群计数的完全卷积模型,其中多个CNN层使用不同尺度的特征组合在一起。4.深度学习神经网络,人群统计的福音?很多人可能认为深度学习是一门新技术,对这个新兴领域感到陌生和惊讶。事实上,深度学习的历史可以追溯到20世纪40年代左右。一般认为,深度学习迄今经历了三波发展浪潮:从1940年代到60年代,深度学习的雏形出现在控制论;从80年代到90年代,深度学习表现为联结主义;1950年以深度学习之名真正复兴,又称人工神经网络4.1感知器感知器,也是最简单的神经网络(只有一层),由美国计算机科学家罗斯布拉特于1957年提出。它只有一层神经元和感知器也可以看作是线性分类器的经典学习算法。结构如图:感知器结构类似wx+b,其中a1...an为输入向量,w1...wn为权重,b为偏置,f为激活函数,t是输出。W和b是未知的,需要从给定的训练集中学习。4.2神经网络神经网络是人工神经网络的简称,它是将单个感知器模拟成神经元而形成的网络结构。其构建理念受到生物神经网络功能运行的启发。人工神经网络模型主要考虑网络连接的拓扑结构、神经元的特性和学习规则。目前,神经网络模型有40种[9],包括反向传播网络、感知器、自组织映射、Hopfield网络、玻尔兹曼机等。根据连接拓扑结构,神经网络模型可分为前馈网络和反馈网络。4.3前向网络前向网络中的每个神经元接收上一层的输入并将其输入到下一层,网络中没有反馈。这种网络实现了信号从输入空间到输出空间的变换。它的信息处理能力来自简单非线性函数的多重复合。网络中可以有多个隐藏层,每个神经元有多个输入,但只有一个输出。反馈网络中神经元之间存在反馈,可用无向完全图表示。这个神经网络的信息处理就是状态的转换。系统的稳定性与联想记忆的功能密切相关。前馈神经网络结构反馈神经网络结构5.基于卷积特征融合的人群计数许多文献讨论了深度神经网络不同卷积层所包含的信息。总体而言,中间层的卷积特征包含丰富的细节,但随着层数的增加变得粗糙。对于尺度变化和背景杂乱等挑战,尽管这种方法比手动设计的特征更具辨别力。但这也促使我们思考文献[5]和文献[7]中是否充分利用了CNN的功能,是否只使用最后的卷积层来估计人数,学习更有判别力的特征还是人群计数中的一个未决问题。本文试图将CNN的特征从final和mid-level两层结合起来以获得更好的表示。5.1网络结构为了加强特征识别,结合多个卷积层的思想进行研究。多列CNN的最终卷积层,即具有相同结构和不同过滤器大小的几个CNN,被合并以产生最终的特征图。融合过程增强了CNN特征的多尺度表示。然而,主要的缺点是每一列都需要单独训练,导致训练时间非常长。此外,微调整个网络仍然是一项艰巨的任务。在[11]中,边缘检测任务采用了不同的多尺度特征策略。所提出的网络结构使用所有卷积层的CNN特征,以获得不同尺度对象的准确表示。由于只需要训练一个CNN,因此训练成本比[6]中的方法更有效。基于FCN网络,考虑以上所有要素,组合不同的卷积层以产生用于人群计数的分层CNN特征。根据实证研究,发现使用多尺度特征的最佳方式是融合最后三个卷积层产生的特征图。因此,所用网络的卷积层结构如图7所示。网络的激活函数使用了修正的线性单元(Relu)函数。不同颜色代表不同类型的层,包括6个卷积层、2个最大池化层和1个concat函数融合层。除convolution6外,每个卷积层后跟一个整流线性单元(ReLU)。将全连接层替换为带1*1滤波器的卷积层,因此模型的网络输入图像可以是任意尺寸,直接输出人群密度估计图得到总体计数。图7:CNN的富卷积特征融合人群统计结构5.2评价指标根据文献[6],我们采用人群统计中常用的平均绝对误差(MAE)和均方误差(MSE)来评价预测结果,其中平均绝对误差反映了预测的准确性,均方误差反映了预测的稳健性。两者详细定义如下:其中:为图像中的实际人数;是预测中的人数;是测试图像的数量。5.3数据集ShanghaiTech是一个开放场景的人群数据集,共有1198张图像,标记了330,165个人。ShanghaiTech数据集由两部分组成,PartA和PartB,每部分又分为train和test。其中PartA来自网络截取的图片,300张图片用于训练,其余182张图片用于测试。图片有不同的分辨率,最大为1024x1024。为方便起见,我们将所有图像的分辨率重新缩放为相同大小的1024x1024。B部分来自上海街头的监控视频画面。共有716张图片,其中400张图片用于训练,其余316张图片用于测试。所有图像的分辨率均为1024x768。在两个数据集上比较不同人群计数方法的实验结果如表:PerformancecomparisonofdifferentcrowdcountingmethodsontheShanghaiTechdatasetNormal07.8lbs02falsefalsefalseEN-USZH-CNX-NONE/*StyleDefinitions*/table。MsoNormalTable{mso-style-name:Normaltable;mso-tstyle-rowband-size:0;mso-tstyle-colband-size:0;mso-style-noshow:yes;mso-style-priority:99;mso-style-parent:"";mso-padding-alt:0cm5.4pt0cm5.4pt;mso-para-margin:0cm;mso-para-margin-bottom:.0001pt;mso-pagination:widow-orphan;font-size:10.0pt;font-family:"Calibri",sans-serif;}table.MsoTableGrid{mso-style-name:gridtype;mso-tstyle-rowband-size:0;mso-tstyle-colband-size:0;mso-style-priority:59;mso-style-unhide:no;mso-style-qformat:yes;border:solidwindowtext1.0pt;mso-border-alt:solidwindowtext.5pt;mso-padding-alt:0cm5.4pt0cm5.4pt;mso-border-insideh:.5ptsolidwindowtext;mso-border-insidev:.5ptsolidwindowtext;mso-para-margin:0cm;mso-para-margin-bottom:.0001pt;mso-pagination:寡妇孤儿;字体大小:10.0pt;字体系列:“Calibri”,无衬线字体;}方法Part_APart_BMAEMSEMAEMSE(Zhangetal.,2016[6])110.3171.226.341.4(FCN.,2016[7])128.4176.524.7437.15(张等,2015[12])181.5227.432.148.4本文提出的方法111.2167.721.8433.35从表中可以看出,本文方法在上海科技大学的数据集上优于FCN方法[7]A部分,以及MAE和MSE上的性能改进。同时,在上科大B部分的数据集上与FCN相比,MAE的性能也有所提升。UCFCC50数据集由50张从网络上收集的图像组成,该数据集包含94到4543个头部注释,每张图像平均有1280个个体。按照[10]中的标准设置,我们将数据集分为五个统一部分,每个部分包含10张图像。在MAE方面,该方法表现最好,该方法的性能也非常接近最佳结果。不同人群统计方法在UCF-CC50数据集上的性能比较Normal07.8公02falsefalsefalseEN-USZH-CNX-NONE/*StyleDefinitions*/table.MsoNormalTable{mso-style-name:normaltable;mso-tstyle-rowband-size:0;mso-tstyle-colband-size:0;mso-style-noshow:yes;mso-style-priority:99;mso-style-parent:"";mso-padding-alt:0cm5.4pt0cm5.4pt;mso-para-margin:0cm;mso-para-margin-bottom:.0001pt;mso-pagination:widow-orphan;font-size:10.0pt;font-family:"Calibri",sans-serif;}table.MsoTableGrid{mso-style-name:grid;mso-tstyle-rowband-size:0;mso-tstyle-colband-size:0;mso-style-priority:59;mso-style-unhide:no;mso-style-qformat:yes;border:solidwindowtext1.0pt;mso-border-alt:solidwindowtext.5pt;mso-padding-alt:0cm5.4pt0cm5.4pt;mso-border-insideh:.5ptsolidwindowtext;mso-border-insidev:.5ptsolidwindowtext;mso-para-margin:0cm;mso-para-margin-bottom:.0001pt;mso-pagination:widow-orphan;font-size:10.0pt;font-family:"Calibri”,无衬线字体;}方法MAEMSE(Zhangetal.,2016[6])376.6504.1(FCN.,2016[7])348.4425.5(Zhangetal.,2015[12])466.0497.5这article提出的方法321.9427.26.总结在提出的方法中,除了一些高度拥挤的场景外,估计值大多接近真实计数。推测这种估计误差可能是由于图像数据密集场景下训练不足造成的。这也说明深度学习技术未来在这一领域还有很长的路要走。同时,在计数方面需要更加重视,进一步提高技术准确性,提高实时性,使计数系统更容易推广到实际应用中。参考文献[1]W.Ge和R.T.Collins。用于人群计数的标记点过程[C]//IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,2009:2913–2920.[2]M.Li、Z.Zhang、K.Huang和T.Tan。基于中间前景分割和头肩检测的拥挤场景中的人数估计[C]//模式识别国际会议,2008:1-4.[3]A.B.Chan和N.Vasconcelos。用于人群计数的贝叶斯泊松回归[C]//IEEE计算机视觉国际会议,2009:545–551.[4]K.Chen、C.L.Chen、S.Gong和T.Xiang。用于局部人群计数的特征挖掘[C]//英国机器视觉会议,2013:1-11.[5]V.Lempitsky和??A.Zisserman。Learningtocountobjectsinimages[C]//神经信息处理系统国际会议,2010:1324-1332.[6]Y.Zhang、D.Zhou、S.Chen、S.Gao和Y.Ma。单图像人群ntingviamulti-columnconvolutionalneuralnetwork[C]//IEEECon??ferenceonComputerVisionandPatternRecognition,2016:589–597.[7]M.Marsden、K.Mcguinness、S.Little和N.E.Connor。全卷积人群指望高度拥挤的场景[EB/OL]2016,arXiv:1612.00220。[8]L.Zeng、X.Xu、B.Cai、S.Qiu和T.Zhang。Multi-scaleconvolutionalneuralnetworksforcrowdcounting[EB/OL]2017,arXiv:1702.02359.[9]赵慎建,傅天凡等。翻译。深度学习[M].北京:人民邮电出版社,2007.8.[10]J.D.考恩。讨论:McCulloch-Pitts和相关的神经网络从1943到1989[C]//BulletinofMathematicalBiology,1990:73-97.[11]M.D.Zeiler和R.Fergus。可视化和理解卷积网络[C]//欧洲计算机视觉会议,2014:818–833.[12]C.Zhang、H.Li、X.Wang和X.Yang。基于深度卷积神经网络的跨场景人群计数[C]//计算机视觉与模式识别,2015:833-841。【原创稿件,合作网站转载请注意原文作者及出处为.com】