深度学习图像处理简介:耳朵生物识别已成为研究热点[1]。最近的一项挑战,称为无约束耳朵识别挑战[2],显示了从野外耳朵图像识别人的难度。为了从耳朵图像中补充身份相关信息,利用年龄和性别信息等软生物识别技术可能会有所帮助。为此,在本文中,我们广泛调查了耳朵图像中的年龄和性别分类任务。生物特征预计不会随时间变化很大,容易获得并且对每个人都是独一无二的[3]。由于其几个特征,耳朵是法医学中生物识别研究和鉴定的重要模型。例如,与面部外观相比,耳朵外观相对恒定,面部外观会受到面部表情、面部毛发或妆容变化的影响。耳廓也是一种面部特征[4]。在耳朵中,耳垂是法医案件中使用频率最高的部位。它是耳朵中唯一会继续生长和改变形状的部分[5]。在安全摄像头拍摄的图像中,耳朵仍然可以在全脸或部分遮盖的面部中看到,可以作为辅助识别信息。此外,在查看个人资料中的人脸时,可以很容易地从视频片段或照片中捕捉到耳朵[6]。尽管已经有很多研究[1]、[6]将人耳图像用于耳朵识别,但是关于从耳朵图像中提取年龄和性别等软生物特征的研究数量有限。据我们所知,这项研究是第一项从耳朵图像进行年龄分类的工作。然而,之前有一些关于耳朵图像的性别分类工作。在[7]中,耳孔被用作测量的参考点。计算从蒙版耳朵图像中识别出的耳孔与耳朵的七个特征之间的欧氏距离。他们使用一个包含342个样本的内部数据库进行实验。他们采用贝叶斯分类器、KNN分类器和神经网络。KNN实现了最先进的性能,分类准确率为90.42%。在[8]中,分别使用侧面图像和耳朵图像,并通过具有直方图交集核的支持向量机(SVM)进行分类。他们基于贝叶斯分析执行分数级融合以提高准确性。UND生物识别数据集集合F[11]的二维图像已用于实验。融合结果的准确率为97.65%,而仅面部性能约为95.43%,仅耳朵性能约为91.78%。文献[9]利用Gabor滤波器提取特征,利用字典学习提取的特征进行分类。该词典是根据训练样本构建的,用于测试阶段,将测试样本表示为训练数据的线性组合。UNDBiostatistics数据集J[11]包含大量外观、姿势和光照变化,已用于实验。通过使用128个特征,报告中得到的最佳准确率为89.49%。在[10]中,对2D和3D耳朵图像进行性别分类。自动检测并对齐3D耳朵。实验在UND数据集F和J2[11]上进行。索引形状的直方图特征被SVM提取和分类。系统的平均性能为92.94%。在本文中,我们对耳朵图像的年龄和性别分类进行了广泛的分析。我们探索了使用几何特征和基于外观的特征来表示耳朵。几何特征基于耳朵上识别的八个界标。为了从这些地标中提取特征,我们计算了它们之间的14个不同距离并进行了两次面积计算。为了对这些提取的特征进行分类,采用了四种不同的分类器——回归分析、随机森林、支持向量机、神经网络。基于外观的方法基于著名的深度卷积神经网络(CNN)模型,即AlexNet[12]、VGG-16[13]、GoogLeNet[14]和SqueezeNet[15]。他们进行了两次微调,第一次是在大规模耳朵数据集上提供域自适应,然后是在小规模目标耳朵数据集上。在实验中,基于外观的方法优于基于几何特征的方法。我们在性别分类方面达到了94%的准确率,超过了之前研究中取得的准确率。对于年龄分类,已经获得了52%的准确率。总之,本文的贡献如下:?我们探索了基于耳朵图像的几何形状和外观的年龄和性别分类特征。?对于几何特征,我们使用了耳朵上的8个地标点并从中导出了16个特征。?对于基于外观的方法,我们使用了一个大型耳朵数据集[16],该数据集由来自Multi-PIE人脸数据集[17]的剪影和近脸人脸图像构成。通过这种方式,我们已经有效地转移并受益于著名的CNN模型来解决手头的问题。?与以前的工作相比,我们在性别分类方面取得了优异的成绩。我们提出了第一个关于从耳朵图像进行年龄分类的工作。深度学习前沿算法性别分类结果:性别分类结果如表4所示,表中***列为分类器名称,第二列为对应的分类准确率。为了提醒读者所使用的函数,函数的类型被括在第二列的括号中。从表中可以看出,基于外观的方法优于利用几何特征的分类器。考虑到正确性别分类的机会水平为50%,使用几何特征获得的结果非常差。这种性能不佳的主要原因可能是已应用于几何特征的归一化步骤。在归一化过程中——使特征具有零均值和单位差——关于性别的辨别信息可能已经丢失。因此,归一化的影响需要进一步分析。基于外观的方法已经达到了大约90%的准确率。使用GoogLeNet架构[14]实现了最先进的性能,分类准确率为94%。这种准确度超过了以往关于耳朵图像中性别分类的研究[7]、[8]、[9]、[10]所达到的性别分类准确度。表5比较了这些方法。总的来说,根据之前的发现,我们发现耳朵图像提供了有用的信息来对受试者的性别进行分类。深度学习前沿算法年龄分类结果:年龄分类结果如表6所示,***列为分类器名称,第二列为对应的分类准确率。为了提醒读者所使用的函数,函数的类型被括在第二列的括号中。基于几何特征的方法和基于外观的方法之间的这种性能差距非常接近。然而,已经发现基于外观的方法再次优越。使用几何特征,3个隐藏层神经网络和逻辑回归以43%的准确率实现了最先进的性能。使用GoogLeNet架构的基于外观的方法[14]实现了最佳性能,分类准确率为52%。与性别分类所取得的成就相比,年龄分类的准确性相对较低。造成这一结果的一个可能原因是每个年龄组的样本量有限。由于年龄分类中的班级数量较多,因此每个班级的样本量较小。我们计划扩展数据集并进一步分析结果。由于基于几何特征的方法和基于外观的方法获得的精度非常接近,将这两种方法结合起来可能是另一种提高性能的方法。总体而言,与地理特征相比,外观提供了更多信息,因此被发现对年龄和性别分类更有用。深度学习前沿算法结论:在本文中,我们对耳朵图像的年龄和性别分类进行了深入研究。据我们所知,这项研究是第一个关于耳朵图像年龄分类的研究,也是为数不多的使用耳朵图像进行性别分类的研究之一。在我们的研究中,我们采用几何特征和基于外观的特征来表示耳朵。计算了耳朵上八个人体测量标志的几何特征,包括14个距离测量和两个面积计算。然后使用四种不同的方法对这些特征进行分类:逻辑回归、随机森林、支持向量机和神经网络。基于外观的方法基于深度卷积神经网络。著名的CNN模型,即AlexNet[12]、VGG-16[13]、GoogLeNet[14]和SqueezeNet[15]已被用于研究。为了有效地将它们转移到手头的任务中,他们首先根据轮廓和Multi-PIE人脸数据集中可用的贴身人脸对大规模耳朵数据集进行微调。[17]的图像构建。之后,更新后的模型在小规模目标耳数据集上再次进行微调。作为实验的结果,已经发现基于外观的方法优于基于几何特征的方法。我们实现了94%的性别分类准确率和52%的年龄分类准确率。这些结果表明耳朵图像为年龄和性别分类提供了有用的线索。然而,使用几何特征进行性别分类需要进一步的工作。已经注意到,对于性别分类,几何特征对归一化很敏感。因此,必须探索更好的归一化方案。对于年龄估计,我们认为性能下降的主要原因是每个年龄组缺乏足够数量的训练样本。我们计划扩展数据集并用更多样本训练年龄分类系统。我们还旨在通过对常用数据集(例如UND-F和UND-J2[11])进行实验来进行比较。此外,我们计划研究几何特征和基于外观的特征之间的互补性。此外,我们计划结合年龄和性别分类的侧面图像和耳朵图像。
