当前位置: 首页 > 科技观察

53帧改成900帧!AI让你不用昂贵的高速相机也能拍出慢动作

时间:2023-03-16 12:50:58 科技观察

需要昂贵的高速相机来制作慢动作视频吗?不!可以使用人工智能。看,这就是AI的效果!虽然它无法与至少数千帧的真正高速摄像机相比,但它可以轻松地将每秒53帧的视频更改为960帧,而不会出现伪影或噪点。不少网友看了效果后看不下去:“我好想要一个深度教程”、“我可以创建一个app吗?”……而这个很酷的研究成果也成功入选了CVPR2021。研究人员来了来自苏黎世华为研究中心和苏黎世大学。当然,也需要使用特殊的相机来实现这种效果。没有采用经典的通过视频光流猜测粒子运动的思路,而是先用两个摄像头抓图。一种是普通相机,记录低帧(20-60FPS)的真实图像;为了达到慢动作的效果,至少每秒300帧就足够了;20帧视频给的信息太少,直接合成慢动作是不可能的。该怎么办?依靠另一种特殊的相机——事件相机(也称为神经拟态相机),它使用一种新型传感器来拍摄“事件”,即记录像素亮度的变化。事件相机还是比较新的,实验室里也有很多,但目前还没有大规模出现在市场上,价格在2000美元以上。因为相机记录的信息是经过压缩和表示的,所以可以以较低的分辨率和较高的速率拍摄,这意味着要牺牲图像质量来换取更多的图像信息。最终的信息量足以让AI理解粒子的运动,便于后续插值。两个摄像头同步拍摄的内容组合起来是这样的:拍摄完成后,可以通过机器学习,最大限度的利用两个摄像头的信息进行帧插值。这里研究人员提出的AI模型叫做TimeLens,分为四个部分。首先,将两个摄像头捕获的帧信息和事件信息发送到前两个模块:基于warp的插值模块和合成插值模块。基于变形的插值模块利用U形网络将运动转换为光流表示,然后将事件转换为真实帧。合成插值模块也使用U型网络将事件放置在两个帧之间,并直接为每个事件生成一个新的可能帧(现在它为同一事件生成两个帧)。该模块可以很好地处理帧之间出现的新对象以及光照变化(例如水反射等)。但是走到这里,合成的视频可能会出现一个问题:噪点。这是第三个模块派上用场的地方,它使用来自第二个插值合成模块的新信息改进第一个模块。即在同一事件的两个生成帧中提取最有价值的信息,并进行形变优化——再次使用U-net网络生成事件的第三帧版本。最后,三个候选框被输入到一个基于注意力的平均模块。该模块采用三个帧表示的最佳部分并将它们组合成最终帧。现在,有了帧间第一个事件的高清帧,对事件摄像机提供的所有事件重复此过程会产生我们想要的最终结果。以下是如何使用AI制作逼真的慢动作视频。这个怎么样?附上相机参数图:达到了智能手机等机型无法达到的效果。如果说这个AI模型的效果好,那你得对比一下才知道。比如上面和最好的插值模型之一DAIN(入选CVPR19)的对比,可见谁好谁坏。并且其插值方法的计算复杂度也是最优的:图像分辨率为640×480,在研究人员的GPU上进行单次插值时,DAIN模型需要878毫秒,而AI只需要138毫秒。此外,虽然不推荐,但使用此模型的输入视频即使只有5帧也可以生成慢动作。对于与其他模型对比的实验数据,感兴趣的可以查看论文。最后,笔者在介绍成果的视频中也再次表示,与昂贵的专业设备相比,该机型至少达到了智能手机等机型无法达到的效果。作者介绍了华为苏黎世研究中心机器学习研究员StepanTulyakov。合著者DanielGehrig,苏黎世大学博士生。苏黎世联邦理工学院机械工程硕士。论文地址:http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf开源地址:https://github.com/uzh-rpg/rpg_timelens