近日,莫斯科国立大学举办的世界视频编码器大赛传来喜讯。金山云自主研发的KAV1编码器在UGC赛道中拔得头筹。MSU视频编码大赛是一场全球性的盛宴,在视频编码领域具有巨大的影响力。至今已连续举办15届,每年都吸引了众多国内外重量级企业和机构参与。此次金山云KAV1在UGC赛道夺冠,不仅证明了金山云在视频编码领域的团队实力和创新潜力,也让业界看到了AV1未来广阔的应用前景。目前,UGC(UserGeneratedContent,用户生成的内容)和PGC(ProfessionallyGeneratedContent,专业制作的内容)是互联网视频的两大主要来源。作为一种泛流行的传播范式,UGC拍摄的低门槛可以满足普通人的自我表达诉求,因为每个人都可以用短视频这种最简洁直观的形式,与他人分享自己的观点,与生活一起分享社会。事实上,在抖音、快手、B站等视频社交平台上,无论是长视频还是短视频,用户参与(UGC)的比重都更大。除了内容来源不同,PGC视频和UGC视频的区别还在于整体质量的不同。在拍摄PGC视频时,我们会选择更好的灯光对比度和合理的动静比例,在制作前期也会采用专业的编码方式来保证压缩质量。相比之下,UGC的拍摄、制作、压制和后期效果都是由非专业人士完成的,缺乏对拍摄环境的把控,在制作前期会出现对焦失真、模糊、噪点等问题,而且加工的过程中也会出现问题。视频多次转码的难度也会随着转码次数的增加而增加。尽管如此,鉴于全球视频云服务的主要流量是UGC,专注于UGC编码更能贴合实际业务场景,这也是MSU大赛UGC赛道的初衷。本次UGC赛道视频取自网络上几个高自由度的原创视频平台。它们是通过遵循MSU一直使用的时空复杂度聚类方法获得的。它们涵盖了各种场景。本次UGC赛道结果显示,金山云KAV1在人工评测中比Reference(X265)压缩率提升41%(去年主观赛道冠军相比X265提升33%),相比svt-av1、VP9和x264分别提升了45%、71%和73%,足以看出金山云KAV1相比UGC赛道中其他编码器的优势。MSU比赛现有的主观、客观、4K等赛道主要集中在AV1和VVC。这些编码器都是为4K、8K等高清视频而生。在一些低清场景下,它们的优势可能不如目前流行的。x265等编码器是显而易见的。作为AV1标准的自研编码器,金山云KAV1以“一切为了高清”为目标,但在UGC场景也有着明显的优势。据悉,本次MSU大赛,金山云专业视频编码器研发团队在编码器和AI两个方向取长补短,研发出符合人眼感知模型的KAV1。金山云KAV1首次参与编码器领域的盛宴就取得了不错的成绩,这说明金山云在AI和编解码方面的研发近年来不断取得成果。KAV1背后的功臣:感知评价指标KPA焦点失真、模糊、噪声、巨大的场景区分等因素使得UGC视频的主观优化成为比PGC视频更具挑战性的部分。为了更好地优化UGC场景的编码效果,金山云自主研发并发布了图像视频感知评价指标金山云感知评估(KPA)。在本次MSU比赛中,利用KPA的强大能力,金山云KAV1在继承经典视频混合框架的基础上,重新设计了基于KPA的RDO目标函数,同时使用JND+KPA极大地剔除了代码率所占区域,包括时域和空气域的采集噪声、压缩引起的压缩噪声、暗场和高频集中等不敏感区域。同时,预测、变换、量化、熵编码等各个过程的压缩效率得到全面提升。例如,WarpMotion技术用于改进局部仿射运动的估计;加入DCT-8/DST-7等变换,提高残差的变换效率。;微调每个编码单元的QP以获得更好的码率分配;创新超越经典CABAC算法的熵编码机制。通过这些手段,金山云KAV1在保证压缩率的同时,大幅提升了画质。(左)x265编码的图像(右)金山云KAV1编码的图像目前能达到商用水平的评价指标非常少,学术界的评价指标主要针对边界条件非常清晰的场景。除了PSNR和SSIM之外,商业级的全参考评价指标是Netflix在2016年发布的VMAF。但是VMAF主要是针对Netflix的PGC场景设计的,不能直接用在UGC视频中。KPA主要针对UGC视频,除了一般的整体质量评价外,还包括细分维度质量、局部质量等细分评价指标。KPA在研发过程中,通过采集各种场景下的UGC和PGC视频,并保证至少50名专业评测人员对每段视频进行主观评价,从源头上避免了数据主观评价波动和准确性问题。同时,对采集到的数据从内容、场景、质量等多个维度进行均衡筛选,在确保数据规模远超业界开源数据的基础上,提升数据的多样性。在模型层面,通过攻防设计、协同学习、难样本挖掘等方法,提高模型的鲁棒性和准确性。在UGC场景下,无论是SROCC还是gMAD得分都优于业界知名的参考算法VMAF。在高清视频的趋势下,用户对视频的要求不断提高,这将对视频编解码技术提出越来越高的要求。基于在视频编解码方面的优势,金山云一直坚持以科技立业,不断探索核心技术,不断寻求突破。
