风格迁移是近期人工智能领域的研究热点,机器之心也报道了很多相关研究。近日,浙江大学和亚利桑那州立大学的多位研究人员在arXiv上发表了一篇关于“NeuralStyleTransfer”的综述论文,综述了神经网络风格迁移技术的研究、应用和存在的问题。综合总结。I.摘要Gatys等人最近的研究。展示了卷积神经网络(CNN)的强大功能:通过分离和重组图像内容和风格,CNN可以创作出具有艺术吸引力的作品。使用CNN融合不同风格图像的语义内容的过程称为NeuralStyleTransfer。从那时起,神经风格迁移就成为学术研究和工业应用中的热门话题,不仅越来越受到计算机视觉研究人员的关注,研究人员还提出了几种改进或扩展Gatys等人的方法。提出的神经算法。然而,目前还缺乏对这方面进行全面回顾和总结的文献。本文回顾了神经网络风格迁移研究的最新进展,并讨论了该技术的不同应用以及作为未来研究方向的未解决问题。图1:使用Gatys等人的风格迁移算法将中国绘画风格(b)迁移到长城照片(a)的示例。提供风格的作品是黄公望的《富春山居图》。1.引言本文剩余部分的逻辑结构如下。第2节对现有的神经风格迁移方法进行分类并详细解释。第3节和第4节介绍了这些方法的一些改进和扩展。文章第5节给出了程式化输出效果的评价方法。第6节讨论了这些神经风格迁移方法的商业应用。***,第7节总结了当前的挑战和可能的解决方案。第8节总结了本文并提出了几个有前途的研究方向。文中涉及的论文及对应的代码和预训练模型请移步:https://github.com/ycjing/Neural-Style-Transfer-Papers2.Dichotomyofneuralstyletransfermethods在这部分,我们提出a分类方法。目前的神经风格迁移方法符合其中一种:DescriptiveNeuralMethodsBasedonImageIteration和GenerativeNeuralMethodsBasedonModelIteration。第一种方法通过直接迭代更新图像像素来实现图像风格迁移,第二种方法首先迭代优化生成模型,然后通过单次前向传递生成风格化图像。(1)DescriptiveNeuralMethodsBasedonImageIteration(基于图像迭代的描述性神经方法)第一个用于迁移图像风格的神经方法是描述性神经方法。这种方法从随机噪声开始,并通过反向传播迭代更新(尚未知)程式化图像。图像迭代的目标是最小化总损失,使得风格化图像同时匹配内容图像的内容和风格图像的风格。神经风格迁移的关键之一是风格的表示,这是一个预定义的风格损失函数。风格损失函数被优化以匹配风格图像特征统计。根据使用的风格损失函数,我们可以将这种方法进一步分为基于均值差(MMD)的方法和基于马尔可夫随机场(MRF)的方法。为简洁起见,我们称它们为基于MMD和基于MRF的方法。A。基于MMD的描述性神经方法MMD是一种流行的度量标准,用于评估两个分布之间的差异,基于希尔伯特空间特征均值[20]。最近,李等人。表明风格转移可以看作是从内容图像到风格图像的分布对齐过程[30]。因此,MMD可以用来衡量风格差异。基于MMD的描述性神经方法是指使用具有不同核函数的MMD作为优化样式损失的神经方法。b.基于MRF的描述性神经方法MRF是图像合成的经典框架。假设局部图像块包含图像中最相关的统计依赖性。第二类描述性神经方法是基于MRF的,也考虑了局部层次的神经风格迁移,比如局部图像块的风格匹配。(2)基于模型迭代的生成神经方法虽然描述性神经方法可以生成出色的程式化图像,但它们仍然存在局限性。其中之一是效率问题。第二类,基于模型迭代的生成神经方法(在一些论文中也称为“快速”神经风格迁移),以牺牲模型灵活性为代价来解决速度和计算成本问题。关键思想是针对特定风格的图像在每个大型图像数据集上预训练一个前馈网络。通过使用梯度下降迭代更新模型来优化网络模型。3.对当前方法的轻微修改一些研究提出了基于当前最先进的神经网络的风格转换算法的改进版本。这些改进版本保留了现有算法的架构和处理,但略微改变了损失函数以获得更好的性能。图2:在神经风格迁移中控制画笔大小可以生成不同风格的结果。风格风格来自梵高的《The Starry Night》(1)描述性神经方法的推导(2)生成性神经方法的推导4.特定类型图像的扩展以上神经风格迁移方法都是处理静态图像。它们可能不适用于其他类型的图像(例如涂鸦、头像和视频)。目前,许多研究都在尝试将最先进的神经风格迁移算法应用于这些特殊类型的图像,或特定目标的图像风格迁移。涂鸦中的神经风格迁移。Champandard做了一些有趣的研究[7](如第2.1.2节所示)。除了将语义映射引入神经风格迁移算法之外,人们还可以通过这种方法在图像中输入高级注释,将简单的草图转化为详细的绘图。化身的神经风格迁移。虽然Gatys等人的算法。能够对一般图像进行风格迁移,尚不适合头像的风格迁移。由于空间约束较弱,直接应用Gatys等人的方法可能会使角色头部变形。这种风格转移是不可接受的。Selim等人解决了这个问题。[41],谁扩展了Gatys等人的算法。他们使用增益图的概念来约束空间,从而在风格转换的同时保留人物的面部轮廓。指定对象的神经风格迁移。卡斯蒂略等人。[5]提出了指定风格迁移目标的算法。该算法是对图像中的单个用户指定对象进行样式化的过程。这个想法是使用最先进的语义分割算法从程式化图像中分割目标对象,然后提取风格转移的对象以与非程式化背景合并。神经风格迁移到视频。罗德等人。[40]扩展了Gatys等人的工作。以算法处理具有神经风格的视频图像序列,如本文神经视频风格迁移中所述。给定目标风格图像,Ruder等人的算法引入了时间损失函数以允许在整个视频中进行风格转换。该算法背后的关键思想是使用时间约束来保持帧之间的平滑过渡,即惩罚沿点轨迹的偏差。Ruder等人的算法。已被证明能够在大多数情况下去除伪影并产生流畅的程式化视频。Anderson等人提出了这方面的另一项工作。[3],它可以使用光流来初始化电影渲染的风格转换。5.评估方法神经风格迁移问题没有groundtruth。NeuralStyleTransfer是一种艺术创作。对于同一个迁移的结果,不同的人可能会有不同甚至截然相反的看法。因此,对神经风格迁移算法获得的视觉结果的评估仍然是一个重要的开放性问题。从我们的角度来看,有两种评估方法可以用于神经风格迁移领域,即:定性评估和定量评估。定性评估要求参与者评估对不同算法进行排名的结果,并依赖于参与者的观察(称为“程式化感知研究”)。该评估的结果可能因参与者的属性(例如,年龄、职业)而异。虽然定性评价方法存在一定程度的不确定性,但该方法至少可以提供一些关于人们神经艺术风格偏好的信息。定量评估侧重于算法中精确的评估指标(如时间复杂度)。在当前的神经风格迁移领域,生成神经方法已经成为一个热门话题,其中速度是工业应用考虑的主要问题之一。但据我们所知,之前没有研究在相同的实验设置下运行所有??最先进的生成神经方法,并对它们进行定性和定量比较。因此,在本章中,我们旨在比较5种当前最先进的生成神经方法,并使用Gatys等人的描述性神经方法作为参考。实验装置。总体而言,实验中使用了10张风格图像和20张内容图像。所有风格迁移结果都是使用作者提供的代码[43,23,27,19,8]得到的,但[14]是一个例外。对于[14],我们使用了流行的开源代码[22]的修改版(参见第3章)。我们实验中使用的所有这些代码的参数都是原作者相应论文提供的默认参数,[12,9]除外。我们使用作者为[12,9]提供的预训练模型。对于我们实验中的所有生成神经方法,在训练期间未观察到所有测试内容图像。(1)定性评价图3:定性评价的部分示例结果表1:六种算法在图3图像上的平均风格排名分数(∈[1,6])(2)定量评价表2:在256×256、512×512、1024×1024三种像素尺寸下神经风格迁移算法的速度比较(硬件:NVIDIAQuadroM6000)六、应用因为神经风格迁移的结果很惊人,也带来了很多成功的行业应用并开始实现业务回报。同时,也有一些应用论文研究了神经风格迁移技术如何应用??于不同的应用领域[4,25]。本节总结了这些应用程序并提出了一些潜在用途。(1)社交(2)辅助用户创作的工具(3)娱乐应用的生产工具7.难点和可能的解决方案Neuralstyletransfer取得了惊人的进展,并在工业上有了应用。尽管当前算法取得了令人印象深刻的结果,但该领域仍然存在一些挑战和未解决的问题。在本节中,我们总结了神经风格迁移领域的问题并讨论了相应的解决方案。(1)困难的参数调优问题画笔方向控制问题“快速”与“更快”问题在神经风格迁移中图4:具有画笔大小控制和没有画笔大小的描述性神经方法的高分辨率结果生成的高分辨率结果神经控制方法。(2)可能的解决方案参数调优问题的解决方案。在未来关于自动参数调整问题的研究中,我们分别讨论描述性神经和生成方法的解决方案。对于描述性神经方法,一种可能的解决方案是遵循Risser等人的方法,并进一步纳入一些无梯度信息,例如损失的大小和损失内的统计信息。另一个方向是从分类问题中使用的自动参数优化策略中汲取灵感(例如,Domhan等人[11]、Luo[32])。对于生成神经方法,一个想法是研究不需要为不同风格训练单独模型的新方法(如[9]),同时仍确保高质量的结果。(即打破速度、灵活性和质量之间的权衡)。然后调参的过程也不是特别耗时,把调参交给用户也可以接受。此外,当前自动参数优化策略中的一些方法也将有助于生成神经方法中的自动参数调整。画笔方向控制问题的可能解决方案。当前的神经风格迁移算法不考虑对笔划方向的控制。相反,在非真实感渲染(NPR:Non-photorealisticRendering)领域,对笔划方向控制有很好的研究[39]。我们相信可以借鉴NPR领域的一些想法来解决神经风格迁移中的方向问题。例如,张等人。要求用户指定笔画方向的位置和方式[49],因为不同的用户有不同的偏好。同样的思路可以借鉴神经风格迁移算法,需要用户提前选择全局笔画方向。此外,将神经风格迁移算法与NPR域中的策略相结合以指导笔划方向(例如,[50]中的矢量场方法)是该问题的另一种潜在解决方案。神经风格迁移中“快速”和“更快”问题的解决方案。该研究方向的关键问题是如何突破速度、灵活性和质量之间的权衡。一个可能的解决方案是遵循Chen和Schmidt[9]的工作。他们的算法是目前效率最高的算法,但是图片质量不高。提高由他们的方法生成的风格转移图像的质量是打破速度、灵活性和质量之间权衡的潜在方向。已经有一些相关的工作,例如[51]。对于neuralstyletransfer算法的“快速”和“更快”的笔画大小控制,其思路与前面提到的笔画方向控制的可能解决方案类似。在NPR领域,有大量研究人员致力于笔划大小控制。对于审查,我们推荐[39]的第1节。8.结论和未来工作神经风格迁移在过去三年中继续发展成为一个蓬勃发展的研究领域。科学挑战和工业需求推动了这一研究领域内越来越多的活动。而在神经风格迁移领域,研究人员也进行了相当多的研究。表3列出了该领域的主要进展。总的来说,本概述提供了对现有神经风格迁移研究的广泛调查,涵盖了当前方法的类别、它们的改进和扩展、评估方法以及现有的挑战和相应的可能解决方案。此外,我们概述了神经风格迁移的三个应用领域,包括社交、辅助用户创作的工具和娱乐应用程序的生产工具。表3:神经风格迁移领域当前进展总结在未来神经风格迁移的研究中,有前途的方向主要集中在两个方面。首先是解决上述当前算法面临的问题,即参数微调问题、笔划方向控制问题和神经风格迁移中“快”和“快”的问题。在第7节中描述了这些挑战及其相应的可能解决方案。第二个有希望的方向侧重于神经风格迁移的新扩展(例如,时尚风格迁移和角色风格迁移),并且在这个方向上已经取得了一些初步结果,例如最近的Yang等人。[47]文本效果迁移研究。这些有趣的扩展可能会变成未来研究课题的趋势,进而可能会创造出新的相关领域。原文:https://arxiv.org/abs/1705.04058【本文为机器之心专栏原创翻译,微信公众号“机器之心(id:almosthuman2014)”】点此查看更多此文好文作者
