当前位置: 首页 > 科技观察

兼顾图像超分辨率和图像缩放,ETH提出新的统一框架HCFlow

时间:2023-03-15 10:02:15 科技观察

近年来,归一化流(NormalizingFlow)模型被用于图像超分辨率(图像SR)[SRFlow,ECCV2020]而imagerescaling(图像重缩放)[IRN,ECCV2020]任务取得了惊人的效果。尽管这两项任务根本不同,但它们具有高度的相似性。基于以上两部作品,苏黎世联邦理工学院计算机视觉实验室的研究人员提出了HCFlow,使用统一的框架处理图像超分辨率和图像缩放,在一般图像超分辨率中,人脸图像超分辨率高分辨率和图像重新缩放等任务已经取得了最先进的成果。该论文已被ICCV2021录用。论文地址:https://arxiv.org/abs/2108.05301Github地址:https://github.com/JingyunLiang/HCFlow摘要最近,归一化流(NormalizingFlow)模型在底层视野中取得了惊人的成果。在图像超分辨率(imageSR)中,它可以用来从低分辨率图像中预测出具有不同细节的高质量高分辨率(多样化的逼真)图像。在图像重缩放(imagerescaling)中,它可以用来联合建模下采样和上采样过程以提高性能。本文提出了一个统一的框架,HCFlow,可以用来处理这两个问题。具体来说,HCFlow通过对低分辨率图像和缺失高频信息进行概率建模来学习高分辨率和低分辨率图像之间的双射。其中,高频信息的建模过程以多层次的方式以低分辨率图像为条件。在训练中,研究使用最大似然损失函数进行优化,并引入感知损失函数(perceptualloss)和生成对抗损失函数(GANloss)进一步提升模型效果。实验结果表明,HCFlow在一般图像超分辨率、人脸图像超分辨率和图像缩放等任务上取得了最好的效果。图像超分辨率与图像缩放图像超分辨率的目标是从低分辨率图像重建高分辨率图像。低分辨率图像空间通常是给定的。例如,双三次下采样图像。图像重缩放的目标是将高分辨率图像降采样为视觉效果更好的低分辨率图像,并确保原始高分辨率图像能够得到很好的恢复。与图像超分辨率任务不同,图像缩放中的低分辨率图像空间可以自行定义。它的主要应用场景是减少图像存储和带宽。方法归一化流简介归一化流(NormalizingFlow)模型旨在学习目标空间(如高分辨率图像x)和潜在空间(如服从高斯分布的潜在变量z)之间的双射。其模型结构通常是由多层可逆变换组成的可逆神经网络:根据变量公式和链式法则的变化,模型参数可以通过以下最大似然损失函数优化来确定:更多介绍信息,请参考:RealNVP论文:https://arxiv.org/abs/1605.08803Glow论文:https://arxiv.org/abs/1807.03039EricJang博客:https://blog.evjang.com/2018/01/nf1.htmlUniversityofWaterlooCS480:https://www.youtube.com/watch?v=3KUvxIOJD0k低分辨率图像空间建模图像超分辨率和图像重缩放任务实际上有图像降级(下采样)和图像超分辨率分辨率(上采样)过程。基于归一化流模型,本研究可以学习高分辨率图像x和低分辨率图像y之间的可逆双射变换以及编码高频信息的潜在变量a。由于很难直接对自然图像的概率进行建模,本研究设计了一个基于真实低分辨率图像y*的条件分布模型:理想情况下,研究人员希望y和y*尽可能接近,因此他们表示p(y|y*)作为Dirac函数,并通过方差非常小的高斯分布近似p(y|y*):由于高频信息p(a|y)可以通过另一个流模型归一化转化为高斯分布p(z),整个模型可以定义为:这样,高分辨率图像x可以转化为低分辨率图像y和编码高频信息的隐变量z通过一个可逆神经网络,并且都服从参数已知的高斯分布。因此,我们可以通过计算最大似然损失函数方便地优化模型。多级网络结构为了更好地建模低分辨率图像与高频信息(即p(a|y))之间的关系,本研究进一步提出了多级条件依赖建模框架。在保持整体网络可逆性的情况下,逐步恢复高频信息,重建高分辨率图像。如下图所示,归一化流的正向过程类似于二叉树的深度优先遍历,而反向过程则是从最深层到第一层逐渐计算。y和a分别代表每一层的低频和高频信息,数字代表计算顺序,蓝色箭头代表条件依赖。具体网络结构如下图所示。实验图像超分辨率本研究使用最大似然损失函数训练模型,并使用L1损失函数、感知损失函数(perceptualloss)和生成对抗损失函数(GANloss)进一步提升模型效果。当参数数量减少1/3时,HCFlow在一般图像超分辨率和人脸图像超分辨率上取得了最好的效果。在不同的随机采样中,可以生成具有不同细节的高质量高分辨率图像。值得注意的是,与基于GAN的模型类似,基于归一化流的模型主要关注视觉效果,PSNR通常会下降。ImageRescaling由于imagerescaling通常不关注重建结果的多样性,因此HCFlow采用与IRN(ECCV2020)一致的训练策略,将正向过程和反向过程分别视为编码和解码过程。训练损失函数包括高分辨率图像和低分辨率图像上的L1损失函数,以及对潜在变量的约束。使用类似的模型参数,实现了0.10-0.34dB的改进。更多模型详情请阅读【论文原文】和开源【代码】。