近年来,随着深度学习技术的快速发展,基于人工智能的超分辨率技术在图像修复、图像增强等领域展现出广阔的应用前景,并得到了广泛的应用。被学术界和工业界广泛接受。关注和重视。然而,在RTC视频领域,很多AI算法并不能满足实际场景的应用需求。本文将重点介绍AI技术从研究到部署的落地,分享超分辨率技术在RTC领域应用所面临的机遇和挑战。一、超分辨率技术概述1、超分辨率技术的提出超分辨率的概念最早由Harris和Goodman在1960年代提出。它是指通过一定的算法或模型从低分辨率图像生成高分辨率图像。技术,并尽可能多地恢复细节,也称为光谱外推。但在研究初期,光谱外推法仅用于某些假设条件下的模拟,并未得到广泛认可;直到单幅图像的超分辨率方法被提出,超分辨率技术才开始得到广泛的研究和应用。目前已成为图像增强乃至计算机视觉领域的重要研究方向。2.超分辨率技术的分类单幅图像的超分辨率方法根据原理的不同可以分为基于插值的、基于重建的和基于学习的方法。由于算法原理简单,应用场景有限,前两种方法在实际场景中超分辨率效果不理想;基于学习的方法是实践中最好的超分辨率方法,其核心包括两部分:算法模型的建立和训练集的选择。根据算法模型和训练集,基于学习的方法可以分为传统学习方法和深度学习方法。一般来说,传统学习方法的算法模型比较简单,训练集比较小。深度学习方法泛指使用大量数据训练的卷积神经网络方法,也是学术研究的热点。所以接下来我会重点介绍基于深度学习的超分辨率方法的发展过程。3.基于DL的SSRRCNN是深度学习方法在超分辨率问题上的首次尝试。它是一个比较简单的卷积网络,由3个卷积层组成,每个卷积层负责不同的功能。第一个卷积层的作用主要是负责提取高频特征,第二个卷积层负责完成低清特征到高清特征的非线性映射,最后一个卷积层负责重构高清特征。分辨率图像。图像。SRCNN的网络结构比较简单,超分辨率效果有待提高,但是它在处理超分辨率等问题时建立了深度学习方法的基本思想。后来的深度学习方法基本都是按照这个思路进行超分辨率重建。后来ESPCN、FSRCNN等网络都在SRCNN的基础上做了一些改进。网络层数还是比较浅,卷积层数不会超过10,超分辨率的效果不是特别理想。因为在当时,深度卷积网络的训练是有问题的。一般来说,对于卷积神经网络来说,当网络层数增加时,性能也会随之提升,但在实际应用中,人们发现当网络层数增加到一定程度时,由于反向传播的原理,梯度将消失。该问题导致网络收敛性差,模型性能下降。直到ResNet提出了残差网络结构,这个问题才得到解决。VDSR是残差网络和残差学习思想在超分辨率问题上的首次应用。首次将超分辨率网络层数增加到20层。优点是它利用残差学习直接学习残差特征,网络收敛会更快,超分辨率效果更好。后来,一些卷积神经网络提出了更复杂的结构。例如,SRGAN提出使用生成对抗网络来生成高分辨率图像。SRGAN由两部分组成,一个是生成网络,一个是判别网络。生成网络的作用是根据低分辨率图像生成高分辨率图像,判别网络的作用是判断生成网络生成的高分辨率图像是否为假,使得当网络在训练中,生成网络和决策网络在两者之间不断博弈,最终达到平衡,从而生成细节纹理更真实、主观视觉效果更好的高分辨率图像。其他深度卷积网络方法如SRDenseNet、EDSR和RDN使用更复杂的网络结构。网络的卷积层越来越深,对单张图像的超分辨率效果越来越好。超分辨率技术发展的总体趋势基本上可以概括为从传统方法到深度学习方法,从简单的卷积网络方法到深度残差网络方法。在这个过程中,超分辨率模型的结构越来越复杂,网络层越来越深,单张图像的超分辨率效果越来越好,但这也会有一定的问题。2.对实时视频任务的要求及SR的挑战在RTC领域,对于视频处理任务,多为直播、会议等即时通信场景,对算法的实时性要求比较高,因此视频处理算法的实时性是优先考虑的问题。然后是算法的实用性。用户在使用直播或会议时,摄像头拍摄的视频有时质量比较低,可能包含很多噪音;另外,视频在编码和传输时会先进行压缩,压缩过程也会造成图像失真。质量退化,所以RTC的实际应用场景更加复杂,很多视频处理方法,比如超分辨率算法,都是研究中的理想场景。最后,如何提升用户尤其是移动端用户的体验,减少算法占用的计算资源,适用于更多的终端设备,也是视频任务必须要考虑的问题。针对这些需求,目前的超分辨率方法,尤其是基于深度学习的超分辨率方法存在着很多问题。目前,学术界对超分辨率的研究大多还停留在理论阶段。图像超分辨率,尤其是视频超分辨率要大规模实现,必须解决一些实际问题。首先是网络模型的问题。为了追求更好的超分辨率结果,目前很多深度学习方法都采用参数越来越多的大规模模型,这会消耗大量的计算资源,在很多实际场景中无法实时处理。二是深度学习模型的泛化能力。对于各种深度学习模型,都会存在训练集适配的问题。训练时使用的训练集不同,在不同场景下的表现也不同。使用在公共数据集上训练的模型在实际应用场景中可能表现不尽相同。最后,还有真实场景中超分辨率效果的问题。目前学术界的超分辨率方法大多针对理想场景,完成从降采样图像到高分辨率图像的重建。但是,在真实场景中,图像退化不仅仅包括下面的采样因子,还会有很多其他的因素,比如图像压缩、噪声、模糊等。综上所述,目前基于AI的超分辨率方法,在RTCvideotask,主要的挑战可以概括为,如何借助一个比较小的网络,实现真??实效果好的视频质量提升,即如何“既让马跑得更快,又让马吃得更少”草。”三、视频超分辨率技术的发展方向首先,深度学习方法仍将是超分辨率算法的主流。因为传统方法在超分辨率任务上的效果并不理想,细节比较差。深度学习方法为超分辨率提供了新思路。近年来,基于卷积神经网络的超分辨率方法逐渐成为主流方法,并且效果在不断提升。从上图可以看出,近年来,基于AI的超分辨率方法的论文数量相对于传统方法呈现出压倒性的局面,而且这种情况在未来几年还会进一步扩大。因为虽然存在一些问题,但是随着一些轻量级网络的出现,深度学习方法在未来的应用上可能会有更大的突破,这些问题也会得到解决,深度学习方法仍然是超分辨率的主流研究方向。其次,一些参数更小的轻量级网络对超分辨率算法的实现会起到更大的推动作用。由于目前的深度卷积网络方法,如EDSR、RDN等深度残差网络难以满足实时视频传输的需求,一些相对较小的轻量级网络对于实时任务会有更好的效果。第三,未来的超分辨率方法将更多地关注真实场景任务。学术界的SR方法大多是针对降采样问题的超分辨率,在真实场景中表现不是很好。在真实场景中,图像退化因素是多种多样的。一些更有针对性的方法,比如包含压缩损失、编码损失和各种噪声的超分辨率任务可能更实用。4、网易云信AI超分辨率算法在RTC领域,由于视频文件太大,我们需要对其进行编码,然后传输到接收端解码播放。由于编码的本质是压缩视频,在网络较差的情况下,编码量化参数会比较大,会造成严重的压缩,导致输出图像出现块效应等畸变,导致画质模糊。这种情况下,解码后的视频如果直接超分辨率,压缩损失也会被放大,超分辨率效果往往不理想。针对这些问题,网易云信提出了一种基于编码损失恢复的视频超分辨率方法,采用数据驱动和网络设计的策略,通过数据处理模拟真实失真场景,从模型设计到工程实现层层优化。在制约AI超分技术的两大难题上取得了一些突破,在模型实时性和实景超分效果方面取得了较好的效果。以上是网易云信在推广AI驱动超分辨率技术应用方面的一些实践经验。希望对大家有所启发和借鉴。
