当前位置: 首页 > 科技观察

不用编程也能做很酷的视频风格迁移?本工具冲上Reddit热榜

时间:2023-03-12 05:26:40 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。这两天,Reddit上一篇关于videostyletransfer的帖子火了起来,发布仅一天就冲上了机器学习社区热度榜首。绚丽华丽的Demo引起了网友们的惊叹。著名恐怖片《闪灵》经过处理,色彩鲜艳,颇具喜剧风格;而电影?的处理效果很像天主教堂的五颜六色的玻璃窗:大家纷纷留言问“是不是CNN的层数问题?”Filtermodified”?发帖人却说,“我不是程序员,我也不知道CNN是什么……”这有点匪夷所思,一个没接触过机器学习的小白,怎么实现视频风格迁移效果这么好?“一键式”视频风格迁移工具Reedit的楼主是个纯美术从业者,没学过电脑和编程,不过借助一个“一键式”傻瓜工具,他轻松完成了视频风格迁移,这个工具叫做DeepDreamGenerator,熟悉图像风格迁移的读者可能对DeepDream很熟悉,它早在2015年就由谷歌公布,最早的DeepDream是为2014ImageNetVisualRecognitionChallenge.主要目的是识别图像中的人脸和其他物体。但后来发现训练的DeepDream可以反向工作,将给定图像的像素特征融入目标。后来,DeepDream在艺术创作中走红在圈子上。它生成的风格转换图像非常梦幻,因此被称为“DeepDream”。制作这个工具的团队将DeepDream做了一个简单易用的版本,不需要任何计算机知识,可以直接在网络上使用。使用非常简单,只需要上传目标图片和“样式”,一键生成。生成图片的效果完全由上传的“风格”决定:有了这个工具,即使是不懂美术、不懂编程的小白,也能量产出艺术作品。视频风格迁移的两种方法虽然DeepDreamGenerator官网没有给出任何技术说明,但DeepDream早已开源,风格迁移在深度神经网络应用中已经是一个耳熟能详的领域。通常,常见的风格迁移迁移算法由两个基本思想组成,一个是优化方法,另一个是在其之上优化的前馈方法。优化方法在这种方法中,没有使用实际的神经网络。该任务不会训练神经网络做任何事情。只需利用反向传播来最小化两个定义的损失值。反向传播到的张量就是想要的图像,从这里开始我们称之为“复制”。您希望转移其风格的艺术作品称为风格图像。样式转移到的图像称为内容图像。“复制”被初始化为随机噪声。然后,它与内容和风格图像一起通过几层预训练图像分类网络。该算法使用每个中间层的输出来计算两种类型的损失:风格损失和内容损失。在风格上,“复制品”接近风格形象,就接近内容。△内容损失公式然后通过直接改变“锻造”来最小化这些损失。经过几次迭代,“叉子”可以有样式图像的样式和内容图像的内容。它是原始内容图像的程式化版本。前馈优化方法的缺点是计算成本高,处理时间相对较长。那么有没有什么好的方法可以直接利用深度神经网络的特性来减轻开发者的负担呢?前馈方法的本质是创建一个未经训练的图像翻译网络,其功能是将内容图像翻译成“转载”的最佳猜测。然后将图像转换网络的输出作为“转载”,连同内容和风格图像通过预训练的图像分类网络计算内容和风格损失。最后,为了减少损失,损失函数需要反向传播到图像转换网络的参数,而不是直接传到“再现结果”中。训练一个网络可接受任何风格的图像,并从这两张图像中产生一个风格化的结果?换句话说,你能做出一个真正任意风格的传输网络吗?几年前,研究人员发现图像传输网络中的实例归一化层是唯一代表风格的层。如果你保持所有卷积参数不变并且只学习新的实例正则化参数,你可以代表完整的在一个网络中有不同的风格。来自康奈尔大学的一个团队首次将这个想法变成了现实。他们的解决方案是使用自适应实例归一化(AdaptiveInstanceNormalization),使用编码器-解码器架构从样式图像生成实例规范参数,取得了相当不错的效果。当然,上述三种方法都需要一定的编程计算机基础,但如果你只是想试用DeepDreamGenerator,可以直接点击下方传送门:https://deepdreamgenerator.com/generator