当前位置: 首页 > 科技观察

拍视频手机最怕抖动,AI只能救了

时间:2023-03-18 15:26:42 科技观察

拿手机拍视频,最大的问题是什么?抖动...视频抖动似乎是一个急需解决的大问题。最近的一项研究可以很好地解决视频抖动问题。它的效果是这样的:从画面上看,右边视频的抖动明显减少,即使是匆匆拍的,也不会显得那么刺眼。与在人多的公共场所拍摄的视频相比,右侧的动画显然要稳定很多。简介随着YouTube、Vimeo和Instagram等在线平台上视频内容的快速增长,视频稳定变得越来越重要。在没有专业视频稳定器的情况下拍摄的手机视频往往不稳定且观看效果不佳,这对视频稳定算法提出了重大挑战。现有的视频稳定方法要么需要主动裁剪帧边界,要么在稳定的帧上产生失真伪影。那么,如何解决视频抖动并产生稳定的视频拍摄效果呢?来自台湾大学、谷歌、弗吉尼亚理工大学和加州大学默塞德分校的研究人员提出了一种无需裁剪的全帧视频稳定算法。论文地址:https://arxiv.org/pdf/2102.06205.pdf项目地址:https://github.com/alex04072000/NeRViS具体来说,本研究提出了一种通过估计密集畸变场实现全帧视频稳定的算法它既可以融合来自相邻帧的失真内容,也可以合成完全帧稳定的帧。该算法的核心技术是基于学习的混合空间融合,可以缓解不精确的光流和快速移动的物体造成的伪影。研究人员验证了该方法在NUS和自拍视频数据集上的有效性。此外,广泛的实验结果表明,所提出的方法优于以前的视频稳定方法。这项研究的主要贡献如下:将神经渲染技术应用于视频稳定,以减轻对流量不准确的敏感性;提出了一种混合融合机制,用于在特征和图像级别组合来自多个帧的信息,通过消融研究系统地验证了各种设计选择;与两个公共数据集上的代表性视频稳定技术相比,所提出的方法表现良好。算法实现本研究提出的视频稳定方法一般分为三个阶段:1)运动估计;2)运动平滑;3)帧变形和渲染。研究的重点是第三阶段,即在不进行任何裁剪的情况下渲染高质量的帧。该算法不依赖于特定的运动估计/平滑技术。该研究假设每个视频帧都有一个从真实相机空间到虚拟相机空间的扭曲场。对于给定的输入视频,我们首先对每一帧的图像特征进行编码,在特定的目标时间戳将相邻帧扭曲到虚拟相机空间,然后融合这些特征以渲染稳定的帧。图3:融合多帧的设计选择。为了合成全帧稳定视频,需要对输入的不稳定视频中多个相邻帧的内容进行对齐融合。如图3所示,它主要包括三个部分:传统的全景图像拼接(或基于图像的渲染)方法通常在图像级别融合扭曲(稳定)的图像。图像级融合在对齐相对准确时效果很好,但在流量估计不可靠时可能会产生混合伪影;图像可以被编码为一个抽象的CNN特征,融合在特征空间中,学习一个解码器,可以将融合后的特征转化为输出帧。这种方法对流量不准确具有鲁棒性,但通常会产生过于模糊的图像;本研究中提出的算法结合了两种策略的优点。首先提取抽象图像特征(等式(6));然后融合多帧扭曲特征。对于每个源帧,融合的特征图与各个变形特征一起解码为输出帧和相关联的置信度图。最后,使用等式(8)中生成的图像的加权平均来生成最终的输出帧。WarpandBlendWarp:扭曲相邻帧以与虚拟相机空间中的目标帧对齐。由于我们已经有了从目标帧到关键帧的扭曲场,以及从关键帧到相邻帧的估计光流,我们可以通过连接流向量来计算从目标帧到相邻帧的扭曲场。因此,可以使用向后扭曲来扭曲相邻帧I_n以与目标帧对齐。由于遮挡或越界,目标帧中的某些像素在相邻帧中不可见。因此,本研究为每个相邻帧计算可见性掩码{}∈ω,以表示源帧中的像素是否有效(标记为1)。本研究使用[Sundaram等人的方法。2010]来识别被遮挡的像素(标记为0)。融合空间:我们探索了几种融合策略来处理对齐的帧。首先,他们可以直接在图像空间中混合失真的彩色帧以产生输出稳定帧,如图3(a)所示。这种图像空间融合方法常用于图像拼接、视频外推和新视图合成。为了结合图像空间和特征空间以实现最佳融合,本研究提出了一种用于视频稳定的混合空间融合机制(图3(c))。与特征空间融合类似,本研究首先从每个相邻帧中提取高维特征,然后利用流来扭曲特征。然后学习CNN来预测最能融合特征的混合权重。研究人员将融合的特征图与每个相邻帧的扭曲特征连接起来,形成图像解码器输入。图像解码器学习预测目标帧和每个相邻帧的置信度图。最后采用图像空间融合的方法,根据预测权值对所有预测目标帧进行融合,得到最终的稳定帧。混合空间融合与特征空间融合的核心区别在于图像解码器的输入。下面图5(b)中的图像解码器仅将融合后的特征作为输入来预测输出帧。融合的特征图已经包含来自多个帧的混合信息。因此,图像解码器可能难以合成清晰的图像内容。相比之下,图5(c)中的图像解码器在融合特征映射的指导下从失真特征重建目标帧。实证研究发现,这可以提高输出帧的清晰度,同时避免重影和毛刺伪影。图5:不同混合空间的效果。实验结果控制变量实验融合函数。该研究使用图像空间融合、特征空间融合和混合空间融合来训练所提出的模型。对于图像空间融合,本研究还包括两种传统的融合方法:多波段融合和图切割。结果如下表1所示:定量评估所提出的方法使用一些先前提出的SOTA视频稳定算法进行了评估,结果如下表4所示:视觉比较本研究中使用的一种方法如下图10所示.来自Selfie数据集的稳定框架和最先进的方法。该方法生成具有较少视觉伪影的全帧稳定视频。图10:与SOTA方法的视觉性能比较。从结果来看,本研究中提出的融合方法不受严重裁剪的帧边界的影响,并且渲染稳定的帧,伪影明显少于DIFRINT。运行时间分析该研究对基于CPU的方法的运行时间进行了实验[Grundmann等人。2011;刘等人。2013;Yu和Ramamoorthi2018]在配备i7-8550UCPU的笔记本电脑上。此外,该研究还对基于GPU的方法的运行时间进行了实验[ChoiandKweon2020;王等。2018;Yu和Ramamoorthi2020]和NvidiaTeslaV100GPU。测试视频的帧分辨率为854×480。结果如下表5所示: