Reddit网友

时间：2023-03-13 14:17:49 科技观察

能用2张图“算”出一个视频。本文经AI新媒体量子位（公众号ID：QbitAI）授权转载。转载请联系出处。只给AI两张图片，就能得到高帧率的动态视频？两张输入图像重叠后是这样的：计算出的视频是姜阿姨的：是的，这是视频插帧算法的功劳。极限操作6，让老电影丝滑的常规方法，这个叫RIFE的AI算法也信手拈来。右边的经典探戈是不是比左边的更流畅？不仅是老电影，飞行表演的精彩瞬间也可以从每秒24帧一口气提升到每秒96帧。这项新研究来自旷视科技和北京大学。不仅老图数据赶上了人们对高帧率的需求，还支持2X/4X/8X高质量插值。它还具有最大的特点之一：快速。Qubit在Colab上用T4跑了一个Demo，一段720p25fps的视频，时长53秒，插值到100fps只用了2分19秒。该项目现已开源，有官方演示和第三方Windows应用程序可供试用。看过RIFE的表演后，网友们不禁惊叹不已。这是要超越各种修复视频中经常出现的插框AIDAIN，引领一波新潮流？一时间，RIFE在Reddit上的人气飙升至2.8k。那么，这个效果是如何实现的呢？从双向估计到一步预测中间帧视频帧插值，通常使用光流预测算法来预测中间帧并将其插入到两帧之间。与光流一样，光流是一种通过颜色指示图像中物体移动方向的方式。△稀疏光流和密集光流传统的光流预测算法通常是根据前后两帧视频来预测中间的某一帧长什么样。插入预测图像后，视频看起来更流畅。以DAIN的算法为例，如果要预测t时刻的帧，需要t时刻前后两帧视频，通过光流预测算法实现。△DAIN的算法图但是这类算法会有一个缺点：在预测过程中，如果用两帧图像生成双向光流，中间光流用线性组合估计，预测结果会在运动边界区域。工件将出现。这样的伪影使得重建中间帧图像的效果不尽如人意。那么，如果我们换个思路，先预测中间流呢？与使用前一帧和下一帧估计两次相比，这里的IFNET(aSpecializedandEfficientIntermediateFlowNetwork)算法将直接使用线性运动假设来估计一次中间帧。效果也很明显。对比前后两帧双向估计产生的光流，IFNET估计的光流非常清晰，几乎没有伪影。使用这种方法重建图像，不仅光流的边缘可以看得很清楚，而且速度也更快。论文中提到RIFE是第一个基于光流的实时视频插帧方案。由于中间帧预测，直接假设前后两帧的变换是线性的，相当于每一帧预测都少了一个估计。那么，这个模型将插帧算法提升到了什么水平呢？运行速度比其他方法快很多。如上所述，RIFE最引人注目的一点是它的速度。在UCF101、Vimeo90K、MiddleburyOTHERset和HDbenchmarks等基准测试上，研究人员将RIFE与Nvidia的SoftSplat和SJTU的DAIN等“前辈”进行了比较。使用640×480的视频来测试运行时间，使用的GPU型号为NVIDIATITANX(Pascal)。从结果中可以看出，RIFE基础模型优于所有具有可比性能的比较方法。当性能超过SOTA方法SoftSplat时，模型的大版本RIFE-Large运行速度提高了30%。此外，研究人员还提供了基于Vimeo90K测试集的视觉对比结果。可以看到在绿框部分，SepConv-L1和DAIN都有伪影，而CAIN铲子部分缺失。相对而言，RIFE生成的结果更可靠。安装包和colab都有。这么漂亮又无忧效果的模型怎么用呢？目前作者已经给出了几种预训练模型的用法，大家可以直接从GitHub项目中下载网盘版的压缩包。无论是使用作者提供的demo，还是使用想要插帧的sample，都可以试用一下。当然模型也有colab版本，可以直接在云服务器上播放模型。而且，已经有玩家制作了Windows版的软件，可以直接下载使用。界面看起来相当简洁：模型RIFE的出现已经让一些游戏爱好者为之疯狂：你能想象即使是尘封已久的PS2也能达到4k游戏的水平！使用这个算法，你可以分3步搞定！不过也有网友对这个算法表示了担忧。该算法虽然速度快、性能高，但实际上存在一个问题：该算法本质上无法关联丢失的帧间信息，因此不能用于安防视频。对于这些方面的应用，未来还需要进一步考虑。作者介绍了论文的第一作者黄哲伟。现任旷视科技算法研究员，毕业于北京大学。进入北大新科一年后，获得ICPC地区赛金奖，成为旷视科技智能计算组（IC组）实习生，随后参加NIPS2017LearningtoRun比赛，使用Actor-CriticEnsemble算法获得第二名。此外，他的论文也被ICCV2019Summit收录。张天元，毕业于北京大学。在读期间，论文被ICML2019、ICCV2019、NIPS2019等顶级会议录用。恒文获得北京大学计算机应用技术硕士学位。石博新，北京大学，现任北京大学信息科学与技术学院助理教授（博雅青年学者）、研究员、博士生导师。旷视研究院AI计算组组长周书昌，毕业于清华大学电子系，本科、博士。项目地址：https://rife-vfi.github.io/论文地址：https://arxiv.org/abs/2011.06294与DAIN效果对比：https://www.youtube.com/watch?v=60DX2T3zyVo&feature=YouTube

上一篇：为什么加密货币在秘鲁和阿根廷如此受欢迎？

下一篇：Go语言新提案：增加模糊测试支持

Reddit网友相关文章