人工智能利用迁移学习利用从自然图像中提取的特征来提高插图分类准确度分类准确度为深度学习领域提供了新的空间。这个创新点有意思,说人工智能必须推荐。网友小星推荐!)人工智能利用迁移学习,利用从自然图像中提取的特征,提高插画分类准确率简介:人类对物体和纹理的识别和识别能力是毋庸置疑的。在实践中,人类几乎能够识别照片或图片中的任何物体,无论光线、视角、风格,甚至图形中的抽象程度如何。然而,计算机并不像以前那么先进,直到最近,自然图像中的对象才能够以人类级别的精度进行分类。2012年深度学习技术的出现是计算机视觉领域,尤其是图像分类领域的一次重大革命,准确率达到95%以上。这些技术虽然对自然图像非常有吸引力,但对探索我们图像级认知的另一层却无济于事。这些网络成功的关键之一是可以使用数十万个带注释的自然图像和精选数据集,这些数据集允许学习非常复杂和非线性的像素统计数据、关系和模式。然而,就时间和资源而言,训练这些网络是一项非常昂贵的任务。因此,从头开始训练深度神经网络需要大量的标注数据和强大的计算能力。为了克服这个问题,迁移学习技术旨在使用现有的预训练架构并使它们对新数据集的响应更加有用。人工智能使用从具有迁移学习贡献的自然图像中提取的特征提高插图分类的准确性:在这项工作中,我们想要探索图像领域,特别是插图图片,用于图像分类任务。我们依赖直觉,即在局部层面,插图描绘的笔触、边缘或纹理统计数据与自然图像中的不同。然而,在更高的层次上,构成物体形状的基本部分与其形状完全相同。我们从在包含超过120万张图像的自然图像数据集ImaNet[RDS*15]上训练的公开可用的深度神经网络VGG-19[SZ14]开始。首先,我们在由内容标记的插图图像的新数据集上评估此类网络。注意到性能不佳,我们提出了一种基于自适应层的优化策略,该策略仅修改网络的几层以更好地捕获新内容。因此,我们建议重新开始并训练捕获图像低级特征的层,因为它们与自然图像不同,同时保持与高级层相似。本文的贡献如下:-我们提供了一个由内容标记的插图图像的新数据集。-我们在新数据集上评估现有架构[SZ14]的性能。-我们提出了两个基于迁移学习技术的新模型-针对我们的数据进行了优化。第一个模型利用传统的机器学习技术,需要少量新数据进行训练。第二种优化模型需要更大的训练数据集,但利用了原始网络中已有的信息,因此如果我们从头开始训练网络,我们需要的数据要少得多。-我们展示了一小组自然图像,尽管架构发生了变化,但新网络能够准确地对自然图像进行分类。人工智能使用迁移学习提高插图分类的准确性,使用从自然图像方法中提取的特征:我们的目标是找到一个能够正确预测插图和剪贴画数据的类标签的模型。有许多包含真实对象标记图像的标准数据集,例如包含超过120万张图像的ImageNet数据集[RDS*15]。但是,我们没有适合我们打算分析的类卡通风格的数据集。因此,我们首先创建一个由内容标记的插图图像数据集(第4节)。该数据集由两组数据组成,将用于不同的任务。包含超过180K图像的噪声数据集分为826个类别,以及包含超过4K图像和23个类别的精选数据集。将精选数据集和嘈杂数据集拆分为一组固定的训练、评估和测试数据。我们首先评估现有的VGG19[SZ14]深度神经网络,该网络已被证明在预测自然图像类别方面表现非常出色。在第5节中,我们提供了此体系结构的摘要并显示了其在数据中的性能。由于获得的精度较低,我们将其视为基线(基线VGG19),并提出了两个受迁移学习技术启发的新模型[RASC14、LLZ*11、OBLS14]。在第6.1节中解释的第一个模型(基线VGG19+SVM)中,我们使用SVM对从深度网络VGG19中提取的特征进行分类。性能比以前的架构有所提高,但仍然很低。因此,我们提出了第7节中描述的第二个模型(优化的VGG19+SVM),它基于两个步骤:首先,我们使用我们的噪声数据集执行基于自适应层的优化;然后,如前所述,我们提取优化网络的特征并使用我们精选的数据集训练SVM。该模型在准确率前1中的准确率为86.61%,在准确率前5中的准确率为97.21%。准确率在前1和前5中分别提高了20%和10%。人工智能使用迁移学习建议模型使用从自然图像中提取的特征提高插图分类精度:正如我们所展示的,与自然图像相比,深度网络VGG19在我们的插图数据集中获得的精度急剧下降。主要原因是我们数据集中图像的统计数据与原始图像不同。提高数据性能的一个想法是创建一个新的控制网络并从头开始训练它。然而,这不是一个好主意,原因有二:首先,我们缺乏训练VGG19的数据量,其次,我们将丢失模型学到的所有信息。为了解决这个问题,我们从之前的迁移学习[RASC14、LLZ*11、DJV*13]中汲取灵感,并对两个新模型进行了评估。在我们的第一个模型(第6.1节)中,我们提取了高级CNN特征并将它们用作图像描述符来训练支持向量机(SVM)。在我们的第二个模型(第7节)中,我们另外重置了VGG19网络的较低层并使用我们的数据集对其进行了优化。理论上设计用于捕捉形状和物体的更高层次几乎保持不变。基线VGG19+SVM:支持向量机(SVM)是用于分类和回归的监督算法。SVM试图找到最佳超平面,该超平面对不同类别的样本之间具有最佳边界的类别进行分类。一种SVM使用非线性内核在找到最佳超平面之前将数据映射到更高维空间。在我们的工作中,我们使用非线性SVM,因为它们在特征非常大时非常有效,并且由于它们最小化不同数据样本之间的边界而具有鲁棒性。此外,它不需要像深度网络那样多的数据,因此可以使用我们精选的数据集对其进行训练。训练和评估我们将精选数据集分为以下几类:16%的数据作为验证数据,64%作为训练数据,20%作为测试数据。对于每个图像,我们通过网络VGG19的第二个全连接层获得特征向量。通过使用三重交叉验证,我们发现最好的性能是由使用欧氏距离平方的径向基函数核(RBF)给出的,松弛变量C=1允许在训练过程中存在一些误差,分类器更加灵活和稳定,γ=0.0001,训练时每个样本的权重。训练SVM的决策函数是一对一休息(OVR),它为每个类训练一个分类器,找到最佳超平面,将该类的样本放在最佳超平面的一侧,剩下的最大放置在另一侧的不同类别的最接近样本之间的边距。训练后,top-1和top-5的准确率分别提高到62.04%和85.64%。由于RBF函数和SVM分类的强非线性映射,从VGG19获得的图像描述符能够取得更好的结果。尽管如此,网络仍然无法识别插图图像的低级特征,这告诉我们,如果使用插图图像统计来优化网络,仍有改进的空间。使用迁移学习的人工智能使用从自然图像中提取的特征来提高插图分类的准确性结论:在这项工作中,我们探索了深度神经网络的高层如何在自然图像和插图这两个不同的领域中进行迁移。我们提出了一个新的插图数据集,其中包含标记和策划的数据。我们已经表明,当使用更抽象的描述(例如漫画或剪贴画)对目标数据集进行分类时,针对自然图像训练的深度神经网络会失败。我们提出了两个模型,分别在原始网络上提高了30-60%的性能,并且我们已经证明我们的模型在照片上仍然表现得相当好。未来的工作有很多有趣的途径。Curated数据集保留了Noisy数据集中的大部分可用数据,仅使用了826个中的23个。这可以通过使用众包平台来管理我们的数据来改进,因为它目前是一个手动过程。我们希望进行进一步的实验,以详尽地评估我们的网络在ImageNet数据集上的准确性,因为我们目前的实验表明这些概念仍然存在于网络中。一个非常有趣的问题是研究此类网络中的抽象和感知,例如,找出此类模型是否自动学习格式塔法则,或预测哪些是允许我们识别对象的基本边缘或部分。(特别点评:人工智能利用迁移学习,利用从自然图像中提取的特征来提高插图的分类准确率,为深度学习领域提供了新的空间。这个创新的兴趣点说人工智能必须要推荐。来自网友小星!)
