当前位置: 首页 > 科技观察

Hua博士提出的模型SwinIR,33%的参数在图像修复领域被碾压sota

时间:2023-03-15 13:30:22 科技观察

模型的参数和性能之间是否存在绝对关系?苏黎世华人医生提出SwinIR模型,实验结果告诉你,模型可能越小越强!SwinIR用Transformer力压CNN,在图像修复领域也独占鳌头。模型参数的数量减少了67%。再也不用只做参数理论的英雄了!图像复原是一个基本的CV问题,受到了长期的关注和研究。它可以从低质量图像(如缩略图、噪声图像或压缩图像)中恢复原始高质量图像。然而,目前图像复原领域的sota方法都是基于卷积神经网络CNN,很少有人尝试使用Transformer,虽然ViT在高级视觉任务中已经占据排行榜多年。苏黎世联邦理工学院Hua博士提出了一种适用于图像复原的SwinIR模型,主要包括浅层特征提取、深层特征提取和高质量图像重建三部分。实验结果证明,SwinIR的性能比目前的sota方法提高了0.14-0.45dB,参数数量也减少了67%。论文地址:https://arxiv.org/abs/2108.10257项目地址:https://github.com/JingyunLiang/SwinIR大多数基于CNN的方法侧重于精细的架构设计,例如残差学习和密集学习,通过巧妙的模型旨在提高性能并增加模型容量。虽然与传统的基于模型的方法相比,CNN的性能有了显着提高,但通常会遇到源自卷积层的两个基本问题:1)图像和卷积核之间的交互与内容无关。使用相同的卷积核来恢复不同的图像区域可能不是最好的选择;2)由于CNN更注重局部特征,卷积对于长依赖的、全局的特征建模效果不佳。在这种情况下,很容易将Transformer视为CNN的替代品。Transformer的self-attention机制可以很好的捕捉上下文之间的全局交互,在多视觉任务上有很好的表现。然而,用于图像修复的ViT需要将输入图像分割成固定大小(例如48×48)的块,并分别处理每个部分。这种策略不可避免地产生了两个缺点:1)边界像素不能利用块外的相邻像素进行图像恢复;2)恢复后的图像可能会在每个图像块周围引入边界伪影。虽然这个问题可以通过补丁重叠来缓解,但它引入了额外的计算负担。模型设计SwinIR的设计基于SwinTransformer,包括三个部分:1)浅层特征提取浅层特征提取模块使用卷积层提取浅层特征,并将浅层特征直接传递给重建模块以保留低频信息。2)Deepfeatureextractiondeepfeatureextraction深度特征提取模块主要由residualSwinTransformerBlock(RSTB)组成,每个block使用多个SwinTransformer层(STL)进行局部注意力和跨窗口交互。另外,在block的末尾增加了一个卷积层来增强特征,并使用残差连接为特征聚合提供shortcut,也就是说RSTB由多个STL和一个卷积层组成一个residualblock,3)高质量图像重建高质量(HQ)图像重建模块是最后一步,融合浅层和深层特征以恢复高质量图像。在实验方面,作者首先研究了通道数、RSTB数和STL数对结果的影响。可以观察到PSNR与这三个超参数呈正相关。对于通道数,虽然性能不断提高,但参数数量呈二次方增长。为了平衡性能和模型大小,在其余实验中选择180作为通道数。对于RSTB个数和层数,性能增益逐渐饱和,所以后续实验都设置为6,得到一个比较小的模型。以及经典的图像超分辨率(SR)模型对,包括DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA和IPT。可以看出,当在DIV2K数据上进行训练时,SwinIR在几乎所有五个基准数据集的所有比例因子上都实现了最佳性能,在Manga109上以4倍比例缩放时的最大PSNR增益为0.26dB。但需要注意的是,RCAN和HAN引入了通道和空间注意力,IGNN提出了自适应patch特征聚合,而NLSA是基于非局部注意力机制。所有这些基于CNN的注意力机制的性能都比所提出的基于Transformer的SwinIR差,这也表明了所提出模型的有效性。当SwinIR在更大的数据集(DIV2K+Flickr2K)上进行训练时,性能进一步显着提升,同时也取得了比基于Transformer的模型IPT更好的精度,达到了0.47dB。甚至IPT在训练中也使用ImageNet(超过130万张图像)并拥有超过1亿个参数。相比之下,即使与基于CNN的sota模型相比,SwinIR的参数也很少(1500万到4430万)。在运行时方面,与基于CNN的代表性模型RCAN相比,IPT和SwinIR在1024×1024下分别需要大约0.2、4.5和1.1秒。实验结果从可视化结果来看,SwinIR可以恢复高频细节并减轻模糊伪影,并产生清晰自然的边缘。相比之下,大多数基于CNN的方法会产生模糊的图像甚至不正确的纹理。与基于CNN的方法相比,IPT生成的图像更好,但存在图像失真和边界伪影的问题。在图像去噪任务上,比较的方法包括传统模型BM3D和WNNM,基于CNN的模型DnCNN、IR-CNN、FFDNet、N3Net、NLRN、FOC-Net、RNAN、MWCNN和DRUNet。可以看出,SwinIR模型比所有方法都强。特别是,它在具有100张高分辨率测试图像的大型Urban100数据集上通过了最先进的DRUNet模型高达0.3dB,而??SwinIR只有1200万个参数,而DRUNet有3亿个参数,这也可以证明SwinIR的架构在学习图像恢复的特征表示方面是有效的。SwinIR模型可以去除严重的噪声干扰并保留高频图像细节,从而获得更锐利的边缘和更自然的纹理。相比之下,其他方法要么太平滑要么太锐利,无法恢复丰富的纹理。