一、人脸识别技术简介人脸识别作为一种生物特征识别技术,具有非侵入、非接触、友好、方便等优点。早在二十世纪初就出现了人脸识别,二十世纪中叶发展成为一门独立的学科。人脸识别真正进入应用阶段是在20世纪90年代后期。人脸识别属于人脸匹配领域,人脸匹配的方法主要包括特征表示和相似度度量。人脸识别的一般过程主要包括人脸检测、人脸裁剪、人脸校正、特征提取和人脸识别。人脸检测就是对获取的图像进行去除干扰,提取人脸信息,得到人脸图像的位置。检测成功率主要受图像质量、光照强度、遮挡等因素影响。人脸获取后,人脸裁剪是根据实际需要裁剪部分或整张人脸,进一步细化人脸图像。为了提高人脸识别的准确率,人脸校正可以尽可能减少因姿势和表情引起的人脸变化,获得正面或平静状态下的人脸照片。特征提取利用不同的特征来衡量和评价图片的相似度。人脸识别主要包括一对一或一对多的应用场景,对目标人脸进行识别和验证。人脸表情模型主要分为2D、2.5D、3D。二维人脸是指RGB、灰度和红外图像,是在一定视角下表示颜色或纹理的图像,不包含深度信息。2.5D是一定视角拍摄得到的人脸深度数据,但是表面信息是不连续的,没有被遮挡部分的深度数据信息。3D人脸由多张不同角度的深度图像组成,具有完整连续的表面信息,包括深度信息。二维图像人脸识别研究由来已久,软硬件技术较为完备,应用广泛。但是,由于二维图像反映的是二维平面信息,不包含深度数据,因此不能完全表达真实的人脸模型。与二维人脸图像相比,三维图像不受光照等影响,具有更强的描述能力,更能真实地反映人脸信息。在人脸合成、人脸迁移、3D人脸识别应用等场景。3D人脸识别一般采用深度相机获取人脸深度信息,主要包括双目相机、基于结构光原理的RGB-D相机和基于光飞行时间原理的TOF相机。常见的3D人脸识别算法主要包括传统识别方法和深度学习识别方法。1.传统识别方法(1)基于点云数据的人脸识别。点云是3D人脸数据的表示。每个点对应一个三维坐标。扫描设备使用这种数据格式来存储采集到的三维人脸数据。人脸信息,即使是稀疏坐标也可以拼接成形状信息,更完美地反映人脸信息。基于点云数据的3D人脸识别直接使用3D点云进行匹配。常用的方法包括ICP(迭代最近点)和Hausdorff距离。前者可以校正点云信息中的平移和旋转变换误差,后者利用3D点云之间的最大距离来匹配人脸,但两者的鲁棒性都不够。(2)基于人脸特征的3D人脸识别。人脸的面部特征主要包括局部特征和全局特征。局部特征可以选择从深度图像中提取面部关键点的特征信息。全局特征是整张脸。变换提取特征,例如球谐特征或稀疏系数特征。2、深度学习识别方法(1)基于深度图的人脸识别将深度图中三维数据的z值投影到二维平面上,形成光滑的三维表面。归一化网络和特征提取网络可用于实现深度图像的人脸识别。归一化网络将输入的深度图像转换为HHA图像,然后利用卷积神经网络回归得到归一化深度图像的参数和特征。提取网络用于获取表示深度图中人脸的特征向量。(2)基于RGB-3DMM的人脸识别3DMM是指三维人脸变形统计模型,最早用于解决从二维人脸图像恢复三维形状的问题,现在多用于深度图像或彩色图像进行人脸模型回归,实现识别任务。(3)基于RGB-D的人脸识别RGB-D图像包含彩色图像和深度图。前者是从红、绿、蓝三色通道得到的图像,后者是指包含视点的场景对象的表面。相关图像通道之间的距离以及两者之间的相互配准。通过对多帧融合后的彩色图像和深度图像进行预训练和迁移学习,在特征层进行融合,提高人脸识别率。2.表情识别的最新研究1)带有噪声的多任务注释的面部情绪识别摘要人类的情绪可以从面部表情中推断出来。然而,在常见的情感编码模型中,包括分类和维度模型,面部表情的注释通常非常嘈杂。为了减少人工标注多任务标签的工作量,引入了带有噪声多任务标注的面部表情识别新问题。对于这个新问题,我们建议从联合分布匹配的角度进行计算,旨在学习原始人脸图像与多任务标签之间更可靠的关联,从而减少噪声的影响。采用一种新颖的方法在统一的对抗性学习游戏中实现情绪预测和联合分布学习。在广泛的实验中进行的评估调查了所提出的新问题的实际设置,以及所提出的方法相对于最先进的竞争方法在合成噪声标记CIFAR-10或实际噪声多点干扰方法上的明显优势标记为RAF和AffectNet的任务.本文探讨了嘈杂多任务标签中的面部表情识别问题。在实践中,最常用的两种面部情绪编码模型是分类和维度的,但是从可用的情绪标签中学习模型往往会产生不好的结果,因此本文提出的公式从联合分布匹配的角度解决了这个问题,旨在利用数据和多任务标签之间的相关性来减少标签噪声的影响。本文为解决面部表情识别的实际案例提供了一些贡献,可归纳为以下三点:(1)提出了一个新的带有噪声多任务标签的面部表情识别问题,其目标是容易地获得廉价的多任务注释;(2)提出一种在数据和异构多任务标签之间具有显式联合和边缘分布匹配的广义公式;(3)引入一种新的对抗性学习模型,以基于联合和边际分布的约束来优化情绪预测的训练,这被证明适用于新提出的问题。带有噪声标签的面部情绪识别仅在带有噪声标签的面部图像上训练稳健模型。传统的方法是直接用噪声标签分布对噪声进行建模,但是传统的条件概率建模存在几个明显的缺点,如缺乏对转移矩阵收敛到真值的约束等。鉴于此,本文使用匹配两个联合分布的关键思想来考虑两对数据和标签上的以下两个联合概率分布:由于对真实世界数据的数据分布的显式概率密度函数建模很难计算,因此,将两个联合分布与精确建模相匹配通常是不可行的。为了克服这个问题,本文采用了生成对抗模型方法。其中,编码器学习从输入图像推断干净标签的函数,解码器学习从噪声标签生成人脸图像和相应表情的函数。整体架构如下图所示。为了匹配编码器和解码器捕获的联合分布,生成器和鉴别器之间进行了一场对抗游戏。鉴别器专门设计用于匹配GY和GX的人脸图像组、噪声向量和多任务标签的联合分布。对于联合分布对齐,一种自然的方法是使用编码器和解码器分别采样的数据来训练网络。然而,每组中的数据高度异构,因此直接串联是不合适的。为了减少数据和多任务标签之间的异构性,本文采用多个网络流并将所有网络流的输出馈入网络。完整的目标函数如下。本文提出的生成器和判别器可以在一个统一的框架内对基于情感预测的损失和基于分布匹配的约束进行内部优化。本文根据该方案设计了一个min-max目标函数:本文中,由于将人脸情绪识别作为目标任务,将情绪预测作为辅助任务,从而利用目标任务的收益,而算法如下图所示。该模型在两种情况下进行评估:(1)用于图像分类的合成噪声标签数据集(CIFAR-10[25]);(2)面部表情识别集的两个实用面部表情数据集(RAF和AffectNet)。下图是实验一的结果,可以看出使用文中提出的模型提高了准确率。下图是训练步骤中基线和建议模型的测试精度曲线的可视化。下图为实验2中面部情绪数据集的评估结果,可以看出在多任务情况下,使用本文提出的模型得到的预测精度更高。本文介绍了带有噪声多任务注释的面部情绪识别问题,这在减少人类多任务学习的标记工作方面具有巨大的应用潜力。我们从联合分布匹配的角度引入了一种新的表述,根据该表述,采用了一种新颖的对抗性学习方法来联合优化情感预测和联合分布学习。最后,研究了合成噪声标签数据集和实用噪声多任务数据库的建立,它们的评估证明了该方法在解决新问题方面的明显优势。2)THIN:THIN:THrowableInformationNetworksandApplicationforFacialExpressionRecognitionIntheWildAbstract对于许多使用深度学习技术解决的任务,可以识别影响不同类别外观的外生变量,理想的分类器将能够identify这个变量总是保持不变。本文提出了一种双重外生/内生表示。我们设计了一个预测层,它使用以外生表示为条件的深度集成,可以学习弱预测变量的自适应权重,并明确地建模外生变量和预测任务之间的依赖关系。此外,提出了外生消除损失的计算以从内生表示中去除外生信息。因此,外生信息被使用了两次,第一次作为目标任务的条件变量,第二次在内生表示中产生不变性。本文将方法命名为THIN,代表THrowableInformationNetwork-works。在本文中,THIN在几种可以识别外源信息的情况下进行了实验验证,例如大旋转下的数字识别和多尺度下的形状识别。它也适用于作为外生变量具有身份的FER。特别是,它证明了THIN在一些具有挑战性的数据集上明显优于最先进的方法。深度学习技术在计算机视觉的监督学习方面取得了重大进展,允许共同学习表示和基于该表示的预测器。成熟的深度学习技术构成了大多数计算机视觉问题的最先进方法,例如对象分类或检测、语义分割或面部和身体分析。然而,在许多此类任务中,对象的外观受到外生变量的严重影响,理想情况下,任务预测应该是不变的。然而,同时,从预测系统的角度来看,我们的目标任务(例如面部表情)应该被预测而不管外在变量(例如主体身份)的变化。因此,本文认为与任务相关的表征(称为内生表征)应该包含尽可能少的关于外生变量的信息。综上所述,在这种情况下,这个外生变量是数据变异的重要来源,同时也是预测器输出应尽可能保持恒定的信息来源。因此,我们建议使用单独的外部和内部表示。本文的贡献:(1)提出了一种外生树状深度集成方法,该方法使用双重内生和外生网络。第一个输出表示用于预测任务,而第二个输出表示通过自适应和联合学习来学习更多相关的弱预测因子以进行深度依赖调整;(2)提出了一种外生消除损失,通过内生和外生表示之间的正交性从内生表示中去除外生变化;(3)这种方法在具有不同外生变量的多个任务上进行了实验验证。在本文中,外生信息通过深度神经网络建模,然后从定义一个简单的基线模型开始,然后逐渐引入其他架构来描述如何显式地合并外生表示和任务预测之间的依赖关系。整体架构如下图所示。如上图所示,主要呈现了基线框架、简单深度集成方法框架、树状深度集成方法框架、外生树状深度集成方法框架。从基线框架开始,设计了一种方法,通过对深度集成的自适应加权预测和利用外生表示来逐步改进框架。树状深度集成网络通过参数优化相应的损失,然后将与外生变量相关的信息分解为内生表示中的任务,并将提取的外生和内生特征输入网络并输出,通过超参数进行了实验设置,从而实现了从内在表示中去除外生信息。我们在合成数据集上评估我们的模型,从中可以清楚地识别外生变量。然后,在真实的FER数据集中对模型进行定性和定量验证,主要介绍用于训练或测试所提出方法的数据集,以及具体的实现细节。下图中的表2展示了不同架构在MNIST-R和dSprites数据集上根据平均准确率的对比;图4为MNIST-R的消融研究,除MNIST数据集外外生表征消除的平均准确率除此之外,论文还在RAF-DB、AffectNet和ExpW数据集上进行了实验验证。表3在平均精度方面比较了不同的架构。图5对数据集RAF-DB进行消融研究。结果。最后,将THIN与最先进的FER方法进行比较,证明THIN在当今最先进、具有挑战性的FER数据库上明显优于最先进的方法。本文提出的模型具有多种应用可能性。首先,THIN理论上可以直接应用于其他问题,例如以姿势或尺度作为外生变量的身体姿势估计,或以领域信息进行语义分割。其次,本文仅使用一个外生变量来训练THIN。但是,可以尝试使用多个此类变量和表示网络以及某种融合方案来应用。此外,可以尝试使用具有身份的THIN作为外生变量来预测面部表情,然后使用另一个具有面部表情的THIN作为外生变量来预测身份,等等,以迭代地改进FER和身份预测。备注:在公众号“计算机视觉工坊”后台,回复“人脸识别技术”获取以上两篇论文。参考文献FacialEmotionRecognitionwithNoisyMulti-taskAnnotationsTHIN:THrowableInformationNetworksandApplicationforFacialExpressionRecognitionintheWildBasedonDeepLearningforMulti-faceDetectioninNaturalScenes本文仅供学术分享。如有侵权,请联系删除文章。
