本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处。在图像领域,AI算法专家的技能不能再受限。现在,随着视频行业的快速发展,相关算法正在成为计算机视觉研究的新趋势。毕竟在日常生活中,无论是视频通话还是网课直播,都会涉及到大量的视频处理算法。但是,如果这些算法的性能不高,视频就会卡顿,分辨率降低,体验极差。(想象一下视频通话时画面卡在PPT里的情况,我已经开始生气了。。。)因此,减少视频算法的计算量一直是国内AI视觉算法专家的难题国内外都致力于研究。近日,两篇CVPR2021论文引起了视频圈的广泛关注。他们教算法模型学会自己“节省算力”,视频处理算法的计算效率提高了数倍以上,性能没有下降!教AI自己节省算力,计算量-78%。用卷积神经网络处理视频实际上是一项计算量巨大的任务。这里的“计算量”不是指视频的大小,而是卷积处理图像的方式——将图像完全“扫除”。但在真实视频中,往往会有大量场景变化不大(10帧以内甚至只有一只手在移动):在这种情况下,如果每个像素都处理一遍……好像GPU在烧。那么,是否可以在不浪费任何额外计算能力的情况下教AI变得高效和“懒惰”?当然可以,有两种方法。在第一篇论文中,提出了一种名为Skip-Convolutions(跳跃卷积)的新型卷积层,可以将前后两帧图像相减,只对变化的部分进行卷积。没错,就像人眼一样,更容易注意到“运动的部分”。很快,计算量从10.2GMACS(每秒10^9定点乘累加计算)下降到0.4GMACS,不到原来的4%!注意,不仅仅是上面的姿态估计,这个卷积层适用于任何神经网络算法,包括光流、语义分割、分类任务等。在最新的语义分割任务中,与经典的视频AI算法HRNet相比,该算法计算量减少78%,延迟减少65%,性能不下降。而第二篇论文则采用了一种新的方法,让AI模型“自己控制计算量”。论文提出了一个名为FrameExit的网络,它由多个级联的分类器组成,可以随着视频帧的复杂度改变模型使用的神经元数量。当视频前后帧差异较大时,AI会使用整个模型进行计算;当前后帧差异较小时,仅使用模型的一部分进行计算。也就是说,如果某一帧看起来不需要复杂的计算,用较小的模型处理就可以了。与其他模型相比,这种方法甚至可以将性能提高多达5倍。同时,神经网络检测的准确率(mAP)不仅没有下降,反而有所上升!目前,第二篇论文已经入选CVPR2021Oral,重要的是,这两篇论文背后的单位居然是高通,一家与所有手机用户息息相关的公司。看来我们可以使用更多性能更好的移动视频应用。移动视频应用,性能超双倍这两项AI视频感知技术,高通早有研究和落地。不得不说连落地的方向也正是我们平时移动视频应用所需要的。除了优化视频处理算法之外,这类感知技术还可以让更多的AI视频模型在手机上使用。首先是视频处理算法的优化。比如我们常见的在线视频会议、在线课堂等视频通话场景,如果视频处理算法模型不好,实时通话的质量会很差。甚至会造成卡顿,然后直接掉帧,比语音通话的观感还差。但如果利用这种视频感知技术,AI可以对视频中的一些像素点进行智能处理,大大减少视频通话所需的图像计算量,让通话过程更加流畅。再比如,我们的手机在对视频文件进行智能编辑处理时,往往会出现耗电大、文件加载慢的问题。但如果用这种算法来处理视频剪辑应用,不仅可以优化算法本身,剪辑过程也可以变得更加流畅。事实上,也正是因为有了这种视频感知算法,才能让更多的AI模型应用到手机上。以小米11为例,它的视频剪辑功能之一就是将视频的一部分时间暂停,另一部分继续播放,就像一个人对另一个人施展“时间停止”魔法一样。这类视频算法模型之前计算量非常大,论文中最初是用GPU实现的。现在用手机就可以实现“时间停止”,而且还是实时的:不仅是视频,连里面的特殊帧都可以暂停,做成很有意思的视频:再比如,常见于专业AI视觉论文以往的图像增强算法主要是针对拍照实现的,无法应用于视频。但现在,由于视频计算量的下降,它已经可以用于实时视频拍摄,甚至视频会议等场景。以OPPOFindX3Pro的夜景拍摄为例。在逆光或夜景视频效果正常拍摄下,在AI的计算下,人脸也能看得很清楚:连我们常见的视频智能防抖、视频插值等帧数,之所以能应用到手机视频中,是因为也离不开视频感知算法对智能帧间比对、超分辨率算法等技术的支持。比如这是vivoX60Pro+的视频智能防抖效果:其实以上这些已经应用在手机上的AI黑科技,都是由骁龙888的计算能力和处理性能支撑的。也就是说之后,高通将很多AI视频处理算法从“几张纸”的论文变成了实际的移动视频应用。“看不见”的AI黑科技,其实身边还有很多手机应用,在这些算法的加持下不断“进阶”。智慧医疗、智慧工厂、XR等“未来”场景逐步实现的背后,还有数不胜数的AI黑科技。以我们常见的VR设备为例,得益于AI算法的加入,摄像头也能实现从内到外更精准的追踪。结合5G进行视频传输,配合AI赋能的VR设备,不仅可以为孩子们提供科普教育,还可以让医生为患者更详细地讲解疾病。再比如,去医院看病,只需要一个码,病历信息、诊疗进展、最新诊疗结果等相关疾病信息都可以收集在码中。通过东大集成开发的“小码哥”扫描后,医生可以快速获取所有信息,及时做出诊断。同时,物联网医疗设备和AI数据分析还可以简化健康监测,打造真正“互联”的医院,让患者在不同地域、不同时间查看自己的病情结果。又如利用AI+边缘计算+5G打造智能数字化生产线,替代人眼进行质量检测和缺陷识别,让工厂节省大量人力成本。不仅如此,工业搬运机器人还可以通过5G+AI智能分析云端或边缘端摄像头采集的视频流数据,实现远程操控。但是用户不需要知道它的每一个细节。因为像高通这样的尖端科技公司,正在一个一个攻克这些技术难关。△高通在AI方向的应用布局则以产品的形式呈现,让每一位用户都能无差别的享受到最新的技术突破。黑科技有多复杂?这不是大多数用户需要考虑的事情。两篇CVPR2021论文地址:[1]https://arxiv.org/abs/2104.11487[2]https://arxiv.org/abs/2104.13400
