一般情况下,视频压缩的目标是在保留视觉内容的同时,利用时间和空间冗余来降低存储视频所需的比特率。使用的方法是非神经标准编解码器(例如H.264/AVC、H.265/HEVC)。多项研究表明,神经网络在学习视频压缩方面取得了更好的进展,最先进的方法在峰值信噪比(PSNR)方面与HEVC相当,或者在MS-SSIM方面优于HEVC。然而,这些方法还没有在主观视觉质量方面进行评估,因为很少有研究人员发布过重新制作的视频。来自谷歌的研究人员提出了一种基于生成对抗网络(GAN)的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并在用户研究中实现了可比的HEVC性能。研究人员提出了一种方法,可以减少由频谱分析驱动的随机移位和非移位递归帧压缩引起的时间累积误差。本文详细介绍了网络设计选择及其重要性,并解决了在用户研究中评估视频压缩方法的挑战。论文地址:https://arxiv.org/pdf/2107.12038.pdf这篇论文的主要贡献包括:本研究提出了第一个在用户研究中衡量的视觉质量方面与HEVC竞争的神经压缩方法。研究表明,在PSNR中具有竞争力的方法在视觉质量方面表现更差;该研究提出了一种技术,通过随机移动残差输入然后保持输出变化、激励谱分析来减少展开时的时间误差累积,该技术被证明在系统和玩具线性CNN模型中均有效;该研究探讨了用户研究测量的视觉质量与可用视频质量指标之间的相关性。为了促进未来的研究,研究人员发布了MCL-JCV视频数据集的重建以及从用户研究中获得的所有数据(附录B中的链接)。研究方法下图为本研究使用的网络架构,其中x={x_1,x_2,...}是帧序列,x_1是初始帧(I)。该研究以低延迟模式运行,因此可以从先前的帧预测后续(P)帧,假设是重建的视频。灰色框是中间张量的可视化。灰色线左边是I-frame分支(蓝色代表CNN学习),右边是P-frame分支(绿色代表CNN学习)。虚线在解码期间未激活,鉴别器D_I、D_P仅在训练期间激活。CNN的大小大致表明了它们的容量。SG是停止梯度操作,Blur是尺度空间模糊,Warp是双三次扭曲,UFlow是冻结光流模型。研究人员使用以下策略来获得高保真重建视频:在I帧中合成可信的细节;尽可能清楚地传达这些可信的细节;对于P-frame中出现的新内容,研究人员希望能够合成可信的Letter细节。论文中的公式是基于HiFiC的。使用条件GAN,其中生成器和鉴别器都可以访问附加标签:公式假设数据点x和标签s遵循联合分布p(x,s)。生成器将样本y~p(y)映射到分布p(x|y),而鉴别器用于预测给定对(x,s)是否来自p(x|s)而不是来自生成器。帧序列和重建需要在设置中处理。在HiFiC之后,研究人员在潜在的y上调整生成器和鉴别器,I帧的y=yI和P帧的y=y_t,r。为了简化问题,本研究的目标是匹配每帧分布,即对于一个长度为T的视频序列,目标是得到一个模型s.t.:Preventerrorcacculatingwhenunfoldingbyrandomshift中提到文本,“低延迟设置的循环性质很难在可能发生错误传播的时域中进行概括。理想情况下,只要研究评估至少T=60帧,就可以使用序列进行训练,但在实践中,由于内存限制,这在当前硬件上是不可行的。虽然我们可以将T=12装入加速器,但这会使模型训练非常慢。加快原型设计和训练新模型,并防止展开问题,研究采用以下训练方案。1)仅在随机选择的帧上训练E_I、G_I、D_I,1000000步。2)冻结E_I、G_I、D_I并从E_I、G_I初始化E_res、G_res权重。使用分阶段展开训练E_flow、G_flow、E_res、G_res、D_P450000step,即使用T=2直到80k步,T=3直到300step,T=4直到350step,T=6直到400k,T=9直到450k。该研究将其分为步骤1)和2),因为经过训练的E_I、G_I可以重复用于P-frame分支的许多变体,并且跨运行共享E_I、G_I使其更具可比性。在训练期间使用比例控制器控制速率:超参数λ_R用于控制比特率和其他损失项(例如GAN损失等)之间的权衡。实验结果数据集:训练数据包括约992,000个时空裁剪视频集,每个视频集长度T为12帧,每帧大小为256×256,取自YouTube上的公开视频。这些视频的分辨率必须至少为1080p,宽高比至少为16:9,帧速率至少为30fps。模型和基准:基线称为“MSE-only”,它使用与研究中相同的架构和训练程序,但没有GAN损失。实验还与尺度空间流(SSF)进行了比较,这是一种最近的神经压缩方法,在PSNR方面可与HEVC相媲美。最后,该研究与没有学习的HEVC进行了比较。我们在图1中总结了评分者的偏好,并在图7中展示了性能指标。该研究在三种比特率下与HEVC进行了比较,结果表明该研究中使用的方法与0.064bpp(14vs12)的HEVC相当,在0.13时更好bpp(18vs9),并且在0.22bpp时表现更好。不错(16vs9)。为了评估GAN损失对视觉质量的影响,研究人员将GAN损失与MSE-only和SSF以低速率(≈0.064bpp)进行了比较。如图1所示,在MSE-only下,30个结果中只有4个更好,4个并列,结果表明GANloss的重要性,而SSFnotpreferredonce,nodraw。研究人员强调,MSE-only仅在PSNR方面与HEVC相当(图7),但在视觉质量方面明显更差。发现以下组件对性能改进至关重要:不使用“freelatent”导致模糊重建,类似于由MSE-onlybaseline产生的重建,如图3顶部所示。发现使用“freelatent”没有条件鉴别器的“潜在”也会导致模糊的重建。当信息没有传递给UFlow时,实验结果会得到不一致的流,而当信息传递给UFlow,但没有流损失正则化(即公式6)时,实验结果并不令人满意。因此,删除任何一个组件都会损害时间一致性,请参见图3底部。总的来说,没有指标预测图1中的结果,但PIM和LPIPS对一些比较进行了正确排序。在神经图像压缩领域已经观察到这一结果,其中最佳方法由人类排名,因为目前没有根据主观质量对这些方法进行准确排名的指标。
