当前位置: 首页 > 科技观察

面向商业应用的深度学习图像字幕技术

时间:2023-03-19 21:07:36 科技观察

【.com快言】使用人工智能将图像上的像素序列转换为文本的技术在今天并不像5年或更早以前那么原始。更好的性能、准确性和可靠性可在从社交媒体到电子商务的各个领域实现流畅、高效的图像字幕。而标签是根据下载的图像自动创建的。本文介绍了图像字幕技术的用例、基本结构、优点和缺点,此外还部署了能够对输入图像上显示的内容创建有意义描述的模型。作为视觉语言目标,图像字幕可以借助计算机视觉和自然语言处理来解决。AI部分采用卷积神经网络(CNN)和递归神经网络(RNN)或任何适用的模型来实现目标。在讨论技术细节之前,先了解一下图像说明的去向。人工智能驱动的图像标注和描述用例微软技术研究员、Azure人工智能认知服务首席技术官黄学东指出:“图像标注是计算机视觉的核心功能之一,可实现广泛的服务。”有一点是有道理的,因为图像说明技术已经有了广泛的应用,即电子商务中的图像标记、照片共享服务和在线目录。在这种情况下,可以根据图像自动创建标签。例如,当用户将图片上传到在线目录时,可以生成图片说明,简化用户的操作。在这种情况下,人工智能识别图像并生成属性——这些可以是签名、类别或描述。该技术还可以确定商品的类型、材料、颜色、图案以及是否适合在线商店销售。同时,图像字幕可以通过图像共享服务或任何在线目录自动创建有意义的图像描述,用于SEO或分类目的。此外,图像字幕技术允许检查图像是否符合平台的发布规则。在这里,它可以替代卷积神经网络(CNN)分类,有助于增加流量和收入。注意:为视频创建描述是一项更复杂的任务。然而,目前的技术状态已经使之成为可能。(1)盲人自动图像标注为了开发这样的解决方案,需要将图像转换为文本,然后再转换为语音。这是深度学习技术的两个显着应用。微软开发的一款名为“SeeingAI”的应用程序可以让视力有问题的用户使用智能手机看到周围的世界。它的应用程序将图像转换为文本,并在手机的摄像头对准它前面的物体时发出音频提示。它还可以识别印刷和手写文本,以及识别物体和人。谷歌还推出了一种工具,可以为图像创建文本描述,让盲人或视力受损的人能够理解图像或图像所在的场景。这种机器学习工具由多个层组成。第一个模型识别图像中的文本和手写数字。然后,另一个模型识别周围世界的物体,例如汽车、树木、动物等。第三层是一个高级模型,能够在全文描述中找到摘要描述。(2)面向社交媒体的人工智能图片字幕借助基于人工智能工具生成的图片字幕,目前已经可用于Facebook和Instagram。此外,它的模型将变得更加智能,学习识别新的对象、动作和模式。大约五年前,Facebook创建了一个能够创建Alt文本描述的系统。现在更准确了。以前使用一般文本描述图像,但现在系统可以生成详细描述。人工智能识别的图像字幕技术也正在与其他人工智能技术一起部署。例如,DeepLo??go是一个基于TensorFlow对象检测API的神经网络。它可以识别徽标。标识符的名称显示为图像字幕。对基于生成对抗神经网络(GAN)的字形合成模型的研究可以揭示生成对抗神经网络(GAN)的工作原理。ImageCaptioningDeepLearningModels此处的研究应用了一个模型,该模型为图像创建有意义的文本描述,同时牢记可能的用例。例如,图像字幕可以描述动作和对象,它们是每张图像上的主要对象。为了训练模型,可以使用MicrosoftCOCO2014数据集。COCO数据集是一个大规模的对象检测、分割和字幕数据集。它包含大约150万个不同的项目,分为80个类别。每张图片都附有五个人工生成的说明文字。使用AndrejKarpathy的训练、验证和测试拆分,可以将数据集拆分为训练、验证和测试部分。此外,还需要BLEU、ROUGE、METEOR、CIDEr、SPICE等参数来评估结果。图像字幕的机器学习模型比较在通常情况下,图像字幕的基线架构将输入编码为固定形式,并将它们逐字解码为序列。编码器将具有三个颜色通道的输入图像编码为较小的打印和学习通道。这个较小的编码图像是原始图像中有用信息的摘要。对于编码,可以应用任何卷积神经网络(CNN)架构。此外,迁移学习可用于编码器部分。解码器查看编码图像并逐字生成字幕。然后使用每个预测的词来创建下一个词。在继续实施之前,让我们看看通过使用Meshed-Memory转换器模型创建模型和测试我们得到了什么。基于AI的图像说明还研究导致错误的示例。错误通常有多种原因,最常见的是图像质量差和初始数据集中缺少元素。该模型是在一般图片的数据集上训练的,因此当它不知道内容或无法正确识别时会出错。这与人脑的工作方式相同。这是说明神经网络工作原理的另一个示例。例如,数据集模型中没有老虎。相反,人工智能系统会选择它所知道的最接近的对象,这与人脑处理未知事物是一样的。用于图像字幕的自上而下的注意模型自上而下的注意模型是第一个用于比较的模型。自上而下的注意力机制结合了自下而上和自上而下的注意力机制。FasterR-CNN用于建立目标检测和图像字幕任务之间的联系。由于利用了来自各个行业的领域知识,区域提议模型在目标检测数据集上进行了预训练。此外,与其他一些注意力机制不同,这两种模型都使用自上而下的注意力机制。使用FasterR-CNN进行图像特征提取(图5A)。FasterR-CNN是一种对象检测模型,可识别属于特定类别的对象并使用边界框对其进行定位。FasterR-CNN分两个阶段检测对象。第一阶段称为区域提议网络(RPN),用于预测目标提议。结合交并比(IoU)和非最大抑制(NMS),选择顶盒方案作为第二阶段的输入。在第二阶段,使用感兴趣区域(RoI)池为每个候选框提取一个非常小的特征图(例如14×14)。然后将这些特征图一起批处理,作为卷积神经网络(CNN)最后一层的输入。因此,最终的模型输出包括类标签上的softmax分布,以及每个框提议的类特定边界框细化。例如,上图中提出的字幕模型使用自上而下的注意机制,在字幕生成期间对每个特征进行权衡。这是一个具有上下注意力机制的长短期记忆网络(LSTM)。在较高层次上,字幕模型由两个LSTM层组成。Meshed-MemoryTransformerModelforImageCaptioning用于解决图像字幕任务的另一个模型是Meshed-MemoryTransformer。它由编码器和解码器部分组成,并由多层堆叠而成。编码器还包括前馈层,解码器具有加权可学习机制。图像的区域以多级方式编码。该模型同时考虑低级和高级关系。学习到的知识被编码为记忆向量。编码器和解码器部分的层以网络结构连接。解码器从每个编码层的输出中读取并对词进行自注意力,对整个编码层进行交叉注意力,然后对结果进行调制和求和。因此,该模型不仅可以利用图像的视觉内容,还可以利用编码器的先验知识。两种图像字幕模型的比较根据研究,可以比较Updown模型和M2Transformer模型,因为它们是在相同的数据上训练的。以下两个图表提供了两个模型的比较。表1评估指标表2推理时间和记忆图像字幕:结果分析和未来展望两种模型都显示出相当不错的结果。在他们的帮助下,可以为数据集中的大多数图像生成有意义的说明。此外,得益于使用Faster-RCNN进行的特征预提取以及在庞大的VisualGenome数据集上的预训练,该模型可以识别人们日常生活中的许多物体和行为,从而正确描述它们。有什么不同?Updown模型比M2Transformer更快更轻。原因是M2Transformer使用了更多技术,例如编码器和解码器之间的附加(“网格”)连接,以及用于记住过去经验的记忆向量。此外,这些模型使用不同的注意机制。自上而下的注意力可以一次完成,而M2Transformer中使用的多头注意力应该并行运行多次。然而,根据获得的指标,M2Transformer取得了更好的结果。在它的帮助下,可以生成更正确、更多样的字幕。M2Transformer预测在描述数据集的图像和一些其他相关图像时包含较少的不准确性。因此,能够更好的完成主线任务。本文比较了这两种模型,但还有其他方法可以完成图像字幕任务。它可以改变解码器和编码器,使用各种词向量,合并数据集,并采用迁移学习。可以改进该模型以实现更多特定于业务的结果,既可以作为有视力问题的人的应用程序,也可以作为电子商务平台中嵌入的附加工具。为了实现这一目标,模型应该在相关数据集上进行训练。例如,对于一个能够正确描述衣服的系统,最好在有衣服的数据集上进行训练。原标题:DeepLearningImageCaptioningTechnologyforBusinessApplications,作者:MobiDev