当前位置: 首页 > 科技观察

基于深度学习的图像超分辨率技术综述

时间:2023-03-21 11:48:46 科技观察

SR取得了显着进展。一般来说,现有的SR技术研究大致可以分为三类:监督SR、非监督SR和领域特定SR(人脸)。先说监督SR。今天有各种深度学习超分辨率模型可用。这些模型依赖于受监督的超分辨率,即使用LR图像和相应的地面实况(GT)HR图像进行训练。尽管这些模型之间的差异非常大,但它们本质上是一组组件的组合,例如模型框架、上采样方法、网络设计和学习策略等。从这个角度来看,研究人员将这些组件组合起来构建一个集成的SR适合特定任务的模型。由于图像超分辨率是一个病态问题,如何进行上采样(即从低分辨率产生高分辨率)是一个关键问题。根据采用的上采样操作及其在模型中的位置,SR模型可以归结为四个模型框架:预采样SR、后上采样SR、渐进式上采样SR和迭代上采样SR,如图所示。除了它们在模型中的位置,上采样操作如何实现它们也很重要。为了克服插值的缺点,以端到端的方式学习上采样操作,可以在超分辨率中引入转置卷积层(TransposedConvolutionLayer)和亚像素层(Sub-pixelLayer)。转置卷积层,即反卷积层,根据与卷积层输出相似的维度特征图预测可能的输入。具体来说,它通过插入零值并进行卷积来扩展图像,从而提高图像分辨率。为简洁起见,以一个3×3核进行2次上采样为例,如图所示。首先,将输入扩大到原始大小的两倍,其中新添加的像素值设置为0(b)。然后应用大小为3×3、步幅为1和填充为1的核卷积(c)。这样输入的featuremap实现了2倍的上采样,感受野最大为2×2。由于转置卷积层可以以端到端的方式放大图像大小,同时保持与普通卷积兼容的连接模式,因此它被广泛用作SR模型的上采样层。然而,它很容易在每个轴上出现“不均匀重叠”,并且两个轴上的乘法进一步产生了不同幅度的特征棋盘图案,这损害了SR性能。亚像素层也是一个用于端到端学习的上采样层,通过卷积生成多个通道然后重塑,如图所示。第一个卷积产生具有s2个通道的输出,其中s是上采样因子(b)。假设输入大小为h×w×c,输出大小为h×w×s2c。之后,执行混洗操作以产生大小为sh×sw×c的输出(c)。感受野大小可达3×3。由于端到端的上采样方法,子像素层也被SR模型广泛使用。与转置卷积层相比,亚像素层最大的优势是感知域更大,提供更多的上下文信息,可以帮助生成更准确的细节。然而,子像素层的感受野分布不均匀,块状区域实际上共享相同的感受野,这可能导致块边界附近出现一些失真。如图所示,各种深度学习模型已用于SR。ResNet学习残差而不是彻底映射,并已被SR模型广泛采用,如上图(a)所示。其中,残差学习策略大致可以分为两类,即全局残差学习和局部残差学习。由于超分辨率是图像到图像的转换任务,其中输入图像与目标图像高度相关,因此全局残差学习仅学习两幅图像之间的残差。在这种情况下,它避免了学习从完整图像到另一幅图像的复杂转换,只需要学习残差图来恢复丢失的高频细节。由于大部分区域的残差接近于零,大大降低了模型的复杂度和学习难度。这种方法通常在预上采样的SR框架中采用。局部残差学习类似于ResNet的残差学习,用于缓解增加网络深度带来的退化问题,提高学习能力。在实践中,上述方法都是通过快捷连接(通常用一个小的常数因子缩放)和逐元素加法操作来实现的。不同之处在于前者直接将输入图像连接到输出图像,而后者通常在不同深度的网络层之间添加多个快捷方式。?递归学习递归学习(以递归方式多次应用同一模块)也用于超分辨率,如上文(b)所示。在实践中,递归学习本质上会带来梯度消失或爆炸的问题,因此残差学习和多信号监督等技术通常与递归学习相结合来缓解这些问题。?Channelattention考虑到不同通道之间特征表示的相互依赖和作用,一个“挤压-激发(SAE,squeeze-and-excitation)”模块显式地建模通道相互依赖以提高表示能力,如上图(c)所示。其中,全局平均池化用于将每个输入通道压缩成通道描述符(即常数),然后将这些描述符馈送到两个全连接层以生成通道比例因子。基于通道乘法,使用比例因子重新缩放输入通道以获得最终输出。?密集连接密集连接在视觉任务中越来越流行。在密集块的每一层,所有先前层的特征图都用作输入,并且它自己的特征图用作所有后续层的输入,导致密集块中的l·(l?1)/2l层连接。密集连接不仅有助于缓解梯度消失问题,增强信号传播,促进特征重用,而且采用小增长率(即密集块的通道数)和连接后通道减少,大大减少参数量.为了融合低级和高级特征以提供更丰富的信息来重建高质量的细节,密集连接被引入到SR领域,如上图(d)所示。?多路径学习多路径学习是指模型中存在多条传递特征的路径,这些路径执行不同的操作以提供更好的建模能力。具体来说,可以分为三种类型:全局方法、局部方法和尺度特定方法。全局多路径学习是指使用多条路径来提取图像不同方面的特征。这些路径在传播过程中可以相互交叉,大大增强了特征提取的能力。局部多路径学习使用新块进行多尺度特征提取,如上图(e)所示。该块使用不同内核大小的卷积来同时提取特征,然后连接输出并再次执行相同的操作。快捷方式通过逐个元素相加连接块的输出和输入。通过这种局部多路径学习,SR模型可以更好地从多个尺度提取图像特征,进一步提高性能。Scale-specificmultipathlearning共享模型的主体部分(即特征提取的中间部分),并在网络的首端和末尾分别附加scale-specific预处理和上采样路径,如上图(f)所示.在训练期间,仅启用和更新与所选尺度相对应的路径。通过这种方式,大多数参数在不同尺度之间共享。?高级卷积卷积运算是深度神经网络的基础,可以改进它们以获得更好的性能或更快的速度。这里给出两种方法:DilatedConvolution和GroupConvolution。众所周知,上下文信息有助于在图像超分辨率中生成逼真的细节。扩张卷积使感受野加倍,从而获得更好的性能。组卷积可以减少大量的参数和操作,而性能损失很小,如上图(g)所示。?像素递归学习大多数SR模型认为这是一项与像素无关的任务,因此无法正确确定生成像素之间的相互依赖关系。在人类注意力转移机制的驱动下,递归网络可以顺序发现参与的补丁并执行局部增强。这样,模型就能够根据每幅图像自身的特点自适应地个性化最优搜索路径,从而充分利用图像的全局内依赖性。然而,递归过程需要较长的传播路径,特??别是对于超分辨率HR图像,大大增加了计算成本和训练难度。?Pyramidpooling金字塔池模块更好地利用了全局和局部上下文信息,如上面的(h)所示。具体来说,对于大小为h×w×c的特征图,将每个特征图划分为M×M区间,并进行全局平均池化以产生M×M×c输出。然后,执行1×1卷积以将输出压缩到单个通道。然后,通过双线性插值将低维特征图上采样到与原始特征图相同的大小。通过不同的M,该模块可以有效地整合全局和局部上下文信息。?小波变换众所周知,小波变换(WT)是一种高效的图像表示,它将图像信号分解为表示纹理细节的高频小波和包含全局拓扑信息的低频小波。将WT与基于深度学习的SR模型相结合,将内插LR小波的子带作为输入,并预测相应HR子带的残差。WT和逆WT分别用于分解LR输入和重构HR输出。此外,学习策略问题涉及损失函数的设计(包括像素损失、内容损失、纹理损失、对抗损失和周期性连续损失)、批量归一化(BN)、课程学习(CurriculumLearning)和多信号监督(Multi-监督)等。让我们谈谈无监督的SR。现有的超分辨率工作主要集中在监督学习上,但难以收集同一场景不同分辨率的图像,因此SR数据集中的LR图像通常通过预先定义的HR图像退化获得。为了防止预定义的退化带来的不利影响,无监督的超分辨率成为选择。在这种情况下,只提供未配对的图像(HR或LR)进行训练,得到的模型实际上更可能应对真实场景中的SR问题。?零样本超分辨率单个图像内部的统计数据足以提供超分辨率所需的信息,因此零样本超分辨率(ZSSR)在测试时训练一个小型图像特定的SR网络用于无监督SR,而不是在大型数据集上训练通用模型。具体来说,核估计方法直接从单个测试图像中估计退化核,并对测试图像进??行不同比例因子的退化,以构建一个小数据集。然后在该数据集上训练超分辨率小型CNN模型以进行最终预测。ZSSR利用图像内部特定信息的跨尺度再现。对于在非理想条件下更接近真实场景的图像(非双三次退化核得到的图像,受模糊、噪声、压缩失真等影响),ZSSR优于之前的性能方法得到了很大的改进,在理想条件下(通过双三次插值构建的图像),结果与以前的方法相似。即便如此,由于在测试期间需要为每个图像训练一个网络,因此它的测试时间比其他SR模型长得多。?WeaklysupervisedSR为了不在超分辨率中引入pre-degeneration,弱监督学习的SR模型,即使用unpairedLR-HRimages,是一种解决方案。一些方法学习HR-LR退化模型并使用它们构建用于训练SR模型的数据集,而另一些方法设计循环网络来学习LR-HR和HR-LR映射。由于预退化是次优的,因此从未配对的LR-HR数据集中学习退化是可行的。一种方法称为“两步法”:1)为HR-LR训练GAN模型,并学习未配对的LR-HR图像的退化;2)trainonpairedLR-HRimagesbasedonthefirstGANmodelLR-HR的GAN模型执行SR。对于HR-to-LRGAN模型,将HR图像馈送到生成器生成LR输出,不仅需要匹配HR图像缩减(平均池化)得到的LR图像,还要匹配真实的LR图像。训练后,生成器作为退化模型生成LR-HR图像对。对于LR-to-HRGAN模型,生成器(即SR模型)将生成的LR图像作为输入并预测HR输出,这不仅需要匹配相应的HR图像,还需要匹配HR图像的分布。在“两步法”中,无监督模型有效地提高了超分辨率真实世界LR图像的质量,与之前的方法相比实现了较大的性能提升。无监督SR的另一种方法是将LR空间和HR空间视为两个域,并使用周期性递归结构学习彼此之间的映射。在这种情况下,训练目标包括推送映射结果以匹配对象的域分布并通过往返映射恢复图像。?深度图像先验CNN结构在逆向问题之前捕获大量低级图像统计信息,因此随机初始化的CNN可以用作执行SR之前手工制作的先验知识。具体来说,定义一个生成器网络,将随机向量z作为输入并尝试生成目标HR图像I。训练目标是让网络找到一个I^y,其下采样I^y与LR图像Ix相同。因为网络是随机初始化的并且从未在数据集上训练过,所以唯一的先验知识是CNN结构本身。虽然这种方法的性能仍然比监督方法差很多,但它远远超过了传统的双三次上采样。此外,CNN架构本身所证明的合理性促使深度学习方法与CNN结构或自相似性等先验知识相结合,以提高超分辨率。具体SR。具体的SR领域主要包括深度图、人脸图像、高光谱图像和视频的SR应用。面部图像超分辨率,被称为面部幻觉(FH,facehallucination),通常可以帮助其他面部相关任务。与通用图像相比,人脸图像具有更多与人脸相关的结构化信息,因此将人脸先验知识(例如,关键点、结构分辨率图和身份)纳入FH是一种非常流行且有前途的方法。利用人脸先验知识最直接的方法是限制生成的HR图像具有与地面实况(GT)HR图像相同的人脸相关信息。与全色图像(PAN,panchromaticimages)即具有3个波段的RGB图像相比,具有数百个波段的高光谱图像(HSI,hyperspectralimages)提供了丰富的光谱特征,便于进行各种视觉任务。然而,由于硬件限制,采集高质量的HSI比采集PAN更困难,而且采集到的HSI的分辨率要低得多。因此,超分辨率被引入该领域,研究人员倾向于结合HRPAN和LRHSI来预测HRHSI。就视频超分辨率而言,多帧提供更多的场景信息,不仅具有帧内空间依赖性,还具有帧间时间依赖性(例如,运动、亮度和颜色变化)。大多数方法主要侧重于更好地利用时空依赖性,包括显式运动补偿(例如,光流算法、基于学习的方法)和递归方法等。