用A4纸当屏幕“播放”宫崎骏的动画,随意摇晃也没有破绽。你有什么上菜小窍门吗?怎么摇都不散的那种!如果没有,请检查一下:无论如何,盘子和食物都是安全的。emmm...其实仔细看应该还是能发现这不是上菜的妙招(抱歉~),盘子和热狗也不是粘在一起的,而是后期合成的.这批玩弄AI合成图像的研究人员分别来自香港中文大学、浙江大学和NVIDIA。除了“空降”一盘热狗,他们还将宫崎骏的《龙猫》移到一张白纸上,任何弯曲或移动都不会影响播放。其实这张白纸并没有经过特殊处理,我们看到的“画中画”也是AI合成的。但是——“众所周知,视频不能P,所以这是真的!”(手动狗头)另外,这些人还换了哔哩哔哩TV的眼睛和嘴巴。现在,相关论文已被顶级图形会议SIGGRAPHAsia2022收录。我们来看看他们具体是如何实现这些神操作的。使用神经网络在纸上实现视频要弄清楚如何在纸上放连续的动画,我们先从一张简单的图说起:如何把抖动的纸上的一张图片换成另一张,并且让人基本看不到动画的痕迹P图?第一步是收集各种材料。以梵高的《星空》为例。首先,你需要在不同的角度、光照条件和晃动下拍摄这张照片。然后是关键的一步:需要一个人工智能来预测每一帧video中《星空》的光流,并用其他图片替换它。下面简单介绍一下什么是光流:在计算机视觉中,光流是一个关于物体运动的概念,可以表示为表示同一目标的像素在连续两帧图像中的位移。为了实现丝滑逼真的视觉效果,研究人员提出了一个新的框架NeuralMarker,用于捕捉地标和参考图像之间的密集对应关系。从这个框架名字中的Neural可以看出,它和神经网络有一定的关系。此前,其他AI模型大多通过特征匹配和指定图像建立稀疏对应关系。但是,这些稀疏的特征标记只能支持平面的简单变化,当图片移动时,这些标记就无法被识别。比如把动态的《星空》变成日本名画《神奈川冲浪里》是最好的:只有NeuralMarker成功了,这个模型成功的关键在于它的两个组件和一个marker评估方法:1.FlyingMarkers捕获几何变化。首先,为了处理像素级别的密集对应,运动调节器(运动回归器)必须能够实时捕捉各种几何变化。研究人员使用捕获的材料、一些人造标记和合成参考图像作为数据集训练了一个名为FlyingMarkers的工具。在FlyingMarkers的帮助下,运动调节器可以对各种变形进行编码,从而捕获大多数几何变化。2.SED+SfM捕捉亮度和颜色的变化除了几何变化,颜色和亮度的变化也很关键。研究人员指出,在训练模型的数据集中,连续动画的出现变化不大;最后需要将一张图片换成另一张,外观差异明显。因此,他们提出了对称对极距离(SED)的概念,结合运动结构(SfM)技术,根据相机的拍摄角度来约束密集对应的预测。这样即使原图是在弱光下拍摄的,也能有很好的渲染效果。(虽然还没有达到环境光渐变的效果)3.DVL-Markersevaluation此外,研究人员还提出了一种新的markercorrespondence评估方法:DVL-Markers,用于评估真实中的像素块和模型图片包含的令牌之间的对应关系。并从三个方向进行评估:几何形变、相机视角、光照。研究人员经过测试发现,使用DVL-Markers,该AI模型的图像质量评价指标:SSIM(结构相似度)和PSNR(峰值信噪比)表现优于同类模型,任务成功率达到100%。%。在这些工具的加持下,NeuralMarker也可以处理像在纸上播放视频这样的事情。(也就是说,既然可以在纸上播放视频,那么投影不准的问题是不是有望解决?)看到这里,大家应该觉得这个AI挺牛逼的,但这还没完————以上-提到的“端板妙招”其实就是这组研究人员将NeuralMarker和NeRF结合起来,直接在二维图片上加了一个三维物体。当然,研究人员也承认NeuralMarker仍然存在一定的局限性和发展空间。比如当图片前面有遮挡物的时候,这个AI就不那么聪明了。对此,他们表示会在训练数据集中随机加入遮挡物,让这个AI变得更聪明。论文地址:https://arxiv.org/abs/2209.08896
