用AI破解编解码器的内卷,高通最新顶会论文有点脑洞大开。用AI搞视频编解码有点“野”。帧插入、过拟合、语义感知、GAN……你有没有想过这些“脑洞”或者AI算法,是不是也可以用在编解码器上?例如,原算法将每帧压缩到16.4KB后,树林开始变得极其模糊:但使用GAN后,不仅画面更清晰,而且每帧图像也变小了,只需要14.5KB就可以得到完成了!再比如,将帧插值的思想与神经编解码器结合起来,可以让最新的压缩算法更好地工作……这一系列算法的思想背后的原理是什么,利用AI的潜力有多大开发编解码器?我们采访了高通工程技术副总裁、高通AI研究负责人侯继雷博士,了解高通部分AI编解码器的算法细节和原理。编解码器标准逐渐“介入”。当然,在了解AI算法原理之前,需要先了解视频是如何压缩的。如果不压缩,每秒30帧、8bit单通道色深的480p视频每秒传输80+Mbps数据。实时在线观看高清视频几乎是不可能的。目前在几个维度上主要有色度子采样、帧内预测(空间冗余)和帧间预测(时间冗余)压缩方法。Chromasubsampling主要是根据我们的眼睛对亮度比对颜色更敏感的原理,压缩图像的颜色数据,但在视觉上仍然保持接近原图的效果。帧内预测使用同一帧中的一大块相同颜色的块(下图中的地板等)来预测图像中相邻像素的值,其结果比原始数据更容易压缩.帧间预测,一种用来消除相邻帧之间大量重复数据的方法(下图中的背景)。使用一种叫做运动补偿的方法,利用运动向量(motionvector)和预测值来计算两帧之间的像素差:这些视频压缩方法,特定于视频编解码器,可以做很多压缩工作,包括分区、量化、熵编码等。然而,据侯继磊博士介绍,虽然从H.265到H.266,压缩性能提升了约30%,但这是在编码复杂度增加30倍的情况下实现的,解码复杂度增加了2倍。这意味着编解码标准逐渐进入“内卷化”状态。压缩效果的提升本质上是用编解码器的复杂度换来的,并不是真正意义上的彻底创新。因此,高通从现有压缩方式本身的原理和编解码器的结构入手,想出了几种有趣的AI视频编解码方式。提高压缩性能的三个方向具体来说,目前AI研究包括三个方向:帧间预测方法、降低解码复杂度、提高压缩质量。《PredictionofB-frameprediction》从帧间预测的角度出发,高通提出了B帧编解码的新思路,论文发表在ICCV2021。I-frame:intrapicture,P-frame:预测帧,B-frame:双向插值预测帧。目前的编解码器大多侧重于I帧(帧内预测)和P帧,而B帧则采用I帧和P帧的双向运动补偿来提高压缩性能,H.265官方支持(H.264不支持).虽然使用B帧后视频压缩性能更好,但是仍然存在两个问题:一是需要提前加载视频(后面的P帧必须提前编码得到B帧);另一个是仍然会有冗余,如果I-frames和P-frames是高度相关的,那么使用双向运动补偿会很浪费。例如,如果视频中只有一个球从I帧→B帧→P帧直线运动一定距离,那么使用双向运动补偿会很浪费:在这种情况下,似乎更好使用帧插值,可以直接通过时间戳来预测物体运动的状态,编码计算量也更低。但是这会带来一个新的问题:如果I帧和P帧之间有非常大的突变,比如球突然在B帧弹跳,此时使用帧插值的效果会很差(相当于直接忽略B-framebouncing)。因此,高通选择了两者结合,结合基于神经网络的P帧压缩和插帧补偿,利用AI预测插帧后需要进行的运动补偿:别说了,效果真不错,比谷歌之前CVPR在2020年保持的SOTA记录要好,也比目前基于H.265标准的开源编解码器的压缩性能要好。此外,高通还尝试了一些其他的AI算法。使用“过拟合”降低解码复杂度鉴于编解码标准的卷入,高通也想到了使用AI作为自适应算法,像“过拟合”一样根据视频码流来更新模型的权重增量,ICLR2021上已经有相关论文。这种方法意味着“过度拟合”单个模型,将权重增量编码在比特流中,并与原始比特流进行比较。如果效果更好,就用这种传输方式。事实证明,这种方法在不影响压缩性能的情况下将解码复杂度降低了72%,同时仍然保持了之前B帧模型所取得的最先进的结果。当然,除了视频压缩性能外,还需要考虑单帧图像的压缩质量。毕竟视觉效果也是视频压缩所追求的标准之一。用语义感知和GAN提高压缩质量使用语义感知和GAN的思路比较简单。语义感知是让AI根据人的视觉进行考虑,选择你看视频时最关注的地方,并重点关注那部分的比特分配。比如看网球比赛,你往往不会去关注比赛旁边的观众长什么样,风景如何,而更多的是关注球员自己的动作和击球方式。然后,就训练AI,把更多的bits放在目标人身上,像这样:在结构上也比较简单,就是我们常见的语义分割Mask(掩码):这种方法可以很好的得到帧的质量改进了关注的局部区域,使我们可以有更好的观看效果,而不是在视频压缩时看到整个图像是“马赛克”。据高通称,这种语义感知图像压缩已经扩展到视频压缩。也是一种注重局部的方法,效果也很好。基于GAN的方法更致力于使用更少的比特来生成与视觉效果相同的良好图像质量:据高通称,数据集来自CVPR中图像压缩的一个WorkshopCLIC,提供约1600张高清图片,使用自研模型,可以在上面训练出很好的效果:就是一开始的图像效果,即使压缩尺寸后,基于GAN的图像仍然可以达到更好的视觉质量:期待这些技术可以马上应用到手机等设备上,让我们看视频真的不卡顿。相关论文:[1]https://arxiv.org/abs/2104.00531[2]https://arxiv.org/abs/2101.08687
