互联网视频在过去几年经历了爆炸式增长,给视频传输基础设施带来了巨大的负担。网络视频传输系统的质量在很大程度上取决于网络带宽。受客户端/服务器计算能力不断增强和深度学习最新进展的启发,一些工作提出将深度神经网络(DNN)应用于视频传输系统以提高视频传输质量。这些DNN方法将整个视频平均分成一些视频片段,然后将低分辨率视频片段及其对应的上下文感知模型传输给客户端,客户端使用这些训练好的模型推断出相应的低分辨率视频片段。这样,可以在有限的互联网带宽下实现更好的用户体验质量(QoE)。其中,传输一段长视频需要同时传输多个超分辨率模型。近日,北京邮电大学和英特尔中国研究院的研究人员首先探索了不同视频片段对应的不同模型之间的关系,然后设计了一个引入内容感知特征调制(CaFM)模块的模型。一种联合训练框架,用于压缩视频传输中传输所需的模型大小。本研究的方法让每个视频片段只传输原始模型参数的1%,同时也取得了更好的超分辨率效果。该研究对各种超分辨率主干、视频时长和超分辨率缩放因子进行了大量实验,以证明该方法的优势和通用性。另外,这种方法也可以看作是一种新的视频编解码方法。在相同的带宽压缩下,该方法的性能(PSNR)优于商用H.264和H.265,体现了在工业应用中的潜力。论文链接:http://arxiv.org/abs/2108.08202GitHub地址:https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021resolutionContent-awareDNN利用神经网络和训练策略的过度拟合特性,与基于VSR(VSR)的方法相比,可获得更高的性能。具体来说,首先将视频分成片段,然后为每个片段训练一个单独的DNN。低分辨率视频片段和相应的模型通过网络传输到客户端。不同的主干可以用作每个视频片段的模型。与WebRTC等商业视频传输技术相比,这种基于DNN的视频传输系统实现了更好的性能。尽管DNN在视频传输中的应用前景广阔,但现有方法仍然存在一些局限性。一个主要的限制是他们需要为每个视频片段训练一个DNN,从而导致一个长视频需要大量的单独模型。这对实际视频传送系统造成了额外的存储和带宽成本。在本文中,研究人员首先仔细研究了不同视频片段的模型之间的关系。尽管这些模型在不同的视频片段上实现了过度拟合,但本研究观察到它们的特征映射之间存在线性关系,可以通过内容感知特征调制(CaFM)模块对其进行建模。这促使研究人员设计了一种方法,在该方法中,模型共享大部分参数,并且只为每个视频片段保留私有CaFM层。然而,与单独训练的模型相比,私有参数的直接微调无法获得有竞争力的性能。因此,我们进一步设计了一个巧妙的联合训练框架,可以同时训练所有视频片段的共享参数和私有参数。这样,与单独训练的多个模型相比,该方法可以获得相对更好的性能。本研究的主要贡献包括:提出了一种用于网络间视频传输的内容感知特征调制(CaFM)模块的新型联合训练框架;广泛的实验,证明了该方法的优点和通用性;在相同的带宽压缩下,与商用的H.264和H.265标准相比,由于过拟合的特性,该方法显示出更多的潜在结果。图1.ApproachNeuralNetworkVideoTransmission是利用DNN在传输Internet视频时节省带宽。与传统的视频传输系统不同,它们用低分辨率视频和内容感知模型取代了高分辨率视频。如上图所示,整个过程包括三个阶段:(i)在服务器上为每个视频片段训练模型;(ii)将低分辨率视频片段与内容感知模型一起从服务器传送到客户端;(iii)在客户端对低分辨率视频进行超分辨率工作。然而,这个过程需要为每个视频片段传输一个模型,从而导致额外的带宽成本。因此,本研究提出了一种压缩方法,利用CaFM模块结合联合训练,将模型参数压缩到原来的1%。MotivationandFindings图2.本研究将视频分成n个片段,并相应地为这些视频片段训练n个SR模型S1、S2...Sn。然后使用随机选择的输入图像(DIV2K)分析S1、S2...Sn模型之间的关系。该研究可视化了图2中3个SR模型的特征图。每个图像代表某个通道的特征图。为简单起见,本研究仅可视化了一层SR模型。具体来说,该研究将特征图表示为,其中i表示第i个模型,j表示第j个通道,k表示SR模型的第k层卷积。对于随机选取的图像,可以计算和之间的余弦距离来衡量这两组特征图之间的相似度。对于图2中的特征映射,本研究计算、和之间的余弦距离矩阵。如图3所示,研究人员观察到,虽然S1、S2...Sn是在不同的视频片段上训练的,但是根据图3中矩阵的对角线值,可以看出“S1、S2...Sn之间的余弦距离对应的通道非常小”。该研究计算了S1、S2和S3之间所有层的余弦距离的平均值,结果分别约为0.16和0.04。这表明虽然不同的SR模型是在不同的视频片段上训练的,但它们之间的关系可以近似地用一个线性函数来建模。这也是本研究提出CaFM模块的动机。图3.内容感知特征调制模块(CaFM)本研究将内容感知特征调制(CaFM)模块引入基线模型(EDSR)以私有化每个视频片段的SR模型。整体框架如图4所示。正如上面动机中提到的,CaFM的目的是操纵特征图,使模型适合不同的视频片段。因此,不同细分市场的模型可以共享大部分参数。本研究将CaFM表示为通道线性函数:其中x_j是第j个输入特征图,C是特征通道的数量,a_j和b_j分别是通道缩放和偏置参数。该研究添加了CaFM来调制基线模型每个卷积层的输出特征。以EDSR为例,CaFM的参数约占EDSR的0.6%。因此,对于具有n个片段的视频,模型的大小可以从n个EDSR减少到1个共享EDSR和n个私有CaFM模块。因此,与基线方法相比,该方法可以显着降低带宽和存储成本。图4.联合训练如上所述,本研究可以利用CaFM替换每个视频片段的SR模型。但是,通过在一个SR模型上微调n个CaFM模块,很难提高直接训练n个SR模型的PSNR精度。因此,本研究提出了一种可以同时训练n个视频片段的联合训练框架。公式可以表示为:对于SR图片,i代表第i个视频片段,s代表视频片段中的第s个样本。式中,W_s代表共享参数,W_i代表每个视频片段的私有参数。对于每个视频片段,损失函数可以计算如下:在训练期间,研究从视频片段中统一采样图像以构建训练数据。所有图像用于更新共享参数W_s,而第i个视频片段的图像用于更新相应的CaFM参数W_i。VSD4K数据集Vimeo-90K和REDS等公共视频超分辨率数据集仅包含相邻帧序列(通常太短),不适合视频传输任务。因此,本研究采集了多个4K视频来模拟实际的视频传输场景。该研究使用标准双三次插值来生成低分辨率视频。研究人员选择了六个流行的视频类别构建VSD4K,包括:游戏、vlog、采访、体育比赛、舞蹈、城市风光等。每个类别由不同的视频长度组成,包括:15秒、30秒、45秒、1分钟、2分钟,5分钟等。VSD4K数据集的详细信息可以在论文的附录中阅读,VSD4K数据集已经在github项目中公开。Qualitative&QuantitativeAnalysisMainExperimentComparison根据上表可以清楚的看出,这种方法(Ours)不仅可以赶上训练n个模型(S1-n)在不同视频和超分辨率尺度上的准确率,而且还能达到峰值信噪比达到精度的超越。注:M0表示长视频不切分,整个视频只训练一个模型。这部分VS编解码实验将本文提出的方法与传统的编解码方法(降低码率进行压缩)进行了定量比较。根据上表可以清楚的看到(红色代表第一,蓝色代表第二),在相同的传输大小(Storage)下,这种方式(Ours)在大多数情况下可以超越H264和H265。同时,视频长度越长,SR模型所占传输大小的比例越小,这种方法的优势越明显。定性比较总体而言,本文创新性地使用超分辨率算法定义网络视频传输任务,旨在降低网络视频传输的带宽压力。使用内容感知特征调制(CaFM)模块结合联合训练压缩每个视频片段对应的模型参数量(1%)。为后续研究者提供了一个新的研究方向。
