当前位置: 首页 > 科技观察

开源人工智能应用于基于面部表情特征生成图像描述

时间:2023-03-16 14:36:45 科技观察

开源人工智能应用于基于面部表情特征深度学习生成图像描述摘要:图像描述是生成图像的自然语言描述的过程。然而,大多数当前的图像字幕模型没有考虑图像的情感方面,这些方面与图像中所代表的活动和人际关系高度相关。为了开发可以生成这些人类字幕的模型,我们使用从包括人脸在内的图像中提取的面部表情特征,旨在提高模型的描述能力。在这项工作中,我们提出了两种Face-Cap模型,它们以不同的方式嵌入面部表情特征来生成图像说明。使用所有标准评估指标,当应用于从标准Flickr30K数据集提取的图像说明数据集时,我们的Face-Cap模型在生成图像说明方面优于最先进的基线模型,该数据集包含大约11K一张包含人脸的图像.对字幕的分析令人惊讶地发现,字幕质量的提高似乎并非来自添加与图像情感方面相关的形容词,而是来自字幕中描述的行为的更多变化。开源人工智能深度学习应用于基于面部表情特征生成图像字幕介绍:图像字幕系统旨在使用计算机视觉和自然语言处理来描述图像的内容。这在计算机视觉中是一项具有挑战性的任务,因为我们不仅要捕捉物体,还要捕捉它们与图像中显示的活动之间的关系,以便生成有意义的描述。大多数最先进的方法,包括深度神经网络,都会生成反映图像事实方面的说明[3、8、12、16、20、35、37];以及更具吸引力的图像说明的情感方面。在设计智能系统以产生智能、自适应和有效的结果时,需要包括识别和表达情绪的情感属性[22]。设计能够识别情绪并将其应用于描述图像的图像字幕系统仍然是一个挑战。一些模型将情感或其他非事实信息纳入图像说明[10、23、38];他们通常需要收集补充数据集,其中情感词汇来自自然语言处理[25]的工作,其中情感通常被描述为积极、中性或消极。马修斯等人。例如,[23]通过众包构建了一个情绪图像说明数据集,其中要求说话者使用固定的词汇,包括积极情绪(例如,可爱的猫)或消极情绪(例如,险恶的猫);训练是在一组标准的事实标题上进行的。甘等。[10]提出了一种称为StyleNet的字幕模型,用于添加样式,包括情感和事实字幕;他们指定了一组预定义的风格,例如幽默或浪漫。这些类型的模型通常包括代表观察者对图像的情绪的图像描述(例如,一只可爱的猫代表对图像的正面感知,一只阴险的猫代表负面感知);它们并非旨在捕捉图像情感内容,如图1所示。这种区别已在情感分析文献中得到认可:例如,[24]中的早期工作提出了一种用于预测情感的图论方法。由文本作者表达,首先去除文本实际内容中正面或负面的文本片段(如“主角试图保护她的好名声”作为电影情节描述的一部分,其中好的有积极的情绪)只留下那些反映作者主观情感文本的意见(例如“大胆,富有想象力,不可抗拒”)。在图像的上下文中,我们对与内容相关的情感的概念感兴趣。应用开源人工智能根据面部表情特征生成图像说明。贡献:因此,在本文中,我们引入了一种称为Face-Cap的图像描述模型,以结合图像本身的情感内容:面部情绪,并应用派生的面部表情特征来生成图像描述。我们介绍了Face-Cap的两种变体,它们以不同的方式使用这些特征来生成字幕。我们工作的贡献是:1.Face-Cap模型生成包含面部表情特征和情感内容的字幕,既不使用情感图像字幕配对数据,也不使用难以收集的情感字幕数据。据作者所知,这是第一项将面部表情分析应用于图像字幕任务的研究。2.一组实验证明,这些Face-Cap模型在所有标准评估指标上都优于基线,是最先进的模型。对生成的说明的分析表明,它们通过更好地描述图像中执行的操作来改进基线模型。3.图像说明数据集,包括我们从Flickr30K数据集[39]中提取的人脸,我们称之为FlickrFace11K。它是公开的3,以促进该领域的未来研究。应用于基于面部表情特征深度学习生成图像描述数据集的开源AI:为了训练我们的面部表情识别模型,我们使用面部表情识别2013(FER-2013)数据集[11]。它包括野外样本、快乐、悲伤、恐惧、惊讶、愤怒、厌恶和中性。它包含35,887个示例(28,709个用于训练,3589个用于公共测试,3589个用于私人测试),通过GoogleSearchAPI收集。这些示例为灰度,大小为48x48像素。在删除了11个全黑示例后,我们将FER-2013的训练集分为两部分:25,109用于训练,3589用于验证模型。与该领域的其他工作类似[17、27、40],我们使用FER-2013的私有测试集在训练阶段后对模型进行性能评估。为了与相关工作进行比较,我们不使用公共测试集来训练或验证模型。为了训练我们的图像字幕模型,我们提取了带有图像字幕的Flickr30K数据集的一个子集[39],我们称之为FlickrFace11K。它包含11,696个示例,包括使用基于CNN的人脸检测算法[18]检测到的人脸。4我们观察到Flickr30K数据集是我们数据集的一个很好的来源,因为它有很大一部分样本包括人类将这些面孔与其他图像字幕数据集(如COCO数据集[4])进行比较。我们将FlickrFace11K样本分成8696个用于训练,2000个用于验证,1000个用于测试,并公开。5为了提取样本的面部特征,我们使用面部预处理步骤和面部表情识别模型如下。基于面部表情特征的深度学习,应用开源人工智能生成图像说明。样本与FER-2013数据一致。为此,使用人脸检测器对FlickrFace11K的人脸进行了预处理。通过基于CNN的人脸检测算法从每个样本中检测和裁剪人脸。然后我们将每张脸转换为灰度并将其大小调整为48x48像素,这与FER-2013数据完全相同。开源AI深度学习应用于基于面部表情特征生成图像说明结论和未来工作:在本文中,我们提出了两种图像说明模型Face-Cap,它使用面部特征来描述图像。为此,应用面部表情识别模型从包括人脸在内的图像中提取特征。使用这些功能,我们的模型会了解图像的情感内容,以自动调整图像说明的生成。与最先进的基线模型相比,我们已经使用标准评估指标展示了我们模型的有效性。生成的字幕显示Face-Cap模型在适当的时间成功生成了包含面部特征的图像字幕。对字幕的语言分析表明,在描述图像内容方面的有效性有所提高,表达方式也具有更大的可变性。未来的工作可能涉及设计新的面部表情识别模型,它可以涵盖更丰富的情绪,包括困惑和好奇;并有效地应用他们相应的面部特征来生成图像说明。此外,我们希望探索用于注入面部情绪的替代架构,例如[37]的软注入方法。代码地址:github.com/omidmn/Face-Cap