当前位置: 首页 > 科技观察

图像大面积缺失,可以逼真修复,新模型CM-GAN考虑了全局结构和纹理细节

时间:2023-03-14 21:07:12 科技观察

图像修复是指补全图像的缺失区域,是计算机视觉的基本任务之一。这种方向有许多实际应用,例如对象移除、图像重新定向、图像合成等。早期的修复方法是基于补丁合成或颜色扩散来填充图像的缺失部分。为了完成更复杂的图像结构,研究人员正在转向数据驱动的方法,他们利用深度生成网络来预测视觉内容和外观。通过对大量图像进行训练,使用重建和对抗性损失,生成修复模型已被证明可以在包括自然图像和人脸在内的各种类型的输入数据上产生更具视觉吸引力的结果。然而,现有工作只能在完成简单图像结构方面取得良好效果,生成具有复杂整体结构和高保真细节的图像内容仍然是一个很大的挑战,尤其是当图像空洞较大时。.本质上,图像修复面临两个关键问题:一个是如何将全局上下文准确地传播到不完整的区域,另一个是合成与全局线索一致的真实局部细节。为了解决全局上下文传播的问题,现有网络利用编码器-解码器结构、扩张卷积、上下文注意力或傅里叶卷积来整合远程特征依赖性并扩大有效感受野。此外,两阶段方法和迭代孔填充依赖于预测粗略结果来增强全局结构。然而,这些模型缺乏一种机制来捕获未屏蔽区域的高级语义并将它们有效地传播到孔中以合成整体全局结构。基于此,来自罗切斯特大学和AdobeResearch的研究人员提出了新一代网络:CM-GAN(级联调制GAN),可以更好地综合整体结构和局部细节。CM-GAN包括一个带有傅里叶卷积块的编码器,用于从带有空洞的输入图像中提取多尺度特征表示。CM-GAN中还有一个双流解码器,它在每个尺度层设置了一个新颖的级联全局空间调制块。在每个解码器块中,我们首先应用全局调制来执行粗略和语义感知的结构合成,然后进行空间调制以空间自适应的方式进一步调整特征图。此外,本研究设计了一种物体感知训练方案,以防止空腔中出现伪影,从而满足现实场景中物体移除任务的需求。本研究中的大量实验表明,CM-GAN在定量和定性评估方面都明显优于现有方法。论文地址:https://arxiv.org/pdf/2203.11947.pdf项目地址:https://github.com/htzheng/CM-GAN-Inpainting先来看看图像修复的效果。与其他方法相比,CM-GAN可以重建更好的纹理:CM-GAN可以合成更好的全局结构:CM-GAN具有更好的对象边界:让我们看看这项研究的方法和实验结果。MethodConcatenatedModulationGAN为了更好地模拟图像补全的全局上下文,本研究提出了一种将全局编码调制与空间编码调制连接起来的新机制。这种机制有助于处理部分无效的特征,同时更好地将全局上下文注入空间域。新架构CM-GAN可以很好的综合整体结构和局部细节,如下图1所示。如下图2(左)所示,CM-GAN基于一个编码器分支和两个并行级联的解码器分支来生成视觉输出。编码器将部分图像和掩码作为输入并生成多尺度特征图。与大多数编码器-解码器方法不同,为了完成整体结构,本研究从全连接层的最高级别特征中提取全局样式代码,然后进行归一化。此外,基于MLP的映射网络从噪声中生成样式代码w以模仿图像生成的随机性。代码w与s组合生成全局代码g=[s;w],用于后续解码步骤。全局空间级联调制。为了在解码阶段更好地连接全局上下文,本研究提出了全局空间级联调制(CM,cascadedmodulation)。如图2(右)所示,解码阶段基于两个分支,即全局调制块(GB)和空间调制块(SB),它们并行对全局特征F_g和局部特征F_s进行上采样。与现有方法不同,CM-GAN引入了一种将全局上下文注入孔区域的新方法。在概念层面,它由每个尺度的特征之间的级联全局和空间调制组成,并自然地集成了三种全局上下文建模补偿机制:1)特征上采样;2)全局调制;3)空间调制。对象感知训练对于训练生成掩码的算法至关重要。本质上,采样的蒙版应该与实际用例中绘制的蒙版相似,并且蒙版应避免覆盖整个对象或任何新对象的大部分。过于简化的掩蔽方案可能会导致伪影。为了更好地支持现实的对象移除用例,同时防止模型在空腔内合成新对象,本研究提出了一种对象感知训练方案,该方案在训练期间生成更逼真的掩码,如下图4所示。具体来说,该研究首先将训练图像传递给全景分割网络PanopticFCN以生成高精度的实例级分割标注,然后采样自由和物体空洞的混合物作为初始掩码,最后计算空洞与每个空洞之间的重叠率实例。如果重叠率大于阈值,则该方法将前景实例从孔中排除;否则,孔保持不变,模拟对象完成,其中阈值设置为0.5。该研究随机扩展和平移对象掩码以避免过度拟合。此外,该研究还扩大了实例分割边界上的孔洞,以避免将孔洞附近的背景像素泄漏到修复区域中。使用Masked-R_1正则化的训练目标该模型结合对抗性损失和基于分割的感知损失进行训练。实验表明,该方法在单纯使用对抗损失时也能取得很好的效果,但加入感知损失可以进一步提高性能。此外,该研究还提出了一种用于对抗训练的掩码R_1正则化,专门用于稳定修复任务,其中利用掩码m来避免计算掩码外的梯度惩罚。实验本研究在Places2数据集上以512×512分辨率进行图像修复实验,并给出了模型的定量和定性评估结果。定量评估:下表1将CM-GAN与其他掩蔽方法进行了比较。结果表明,CM-GAN在FID、LPIPS、U-IDS和P-IDS方面明显优于其他方法。在感知损失的帮助下,LaMa、CM-GAN获得了比CoModGAN和其他方法明显更好的LPIPS分数,这要归功于预训练的感知模型提供的额外语义指导。与LaMa/CoModGAN相比,CM-GAN将FID从3.864/3.724降低到1.628。如下表3所示,CM-GAN在LaMa和CoModGANmasks有微调和没有微调的情况下都取得了明显优于LaMa和CoModGAN的性能增益,表明模型具有泛化能力。值得注意的是,CM-GAN在CoModGANmask上训练,object-awaremask仍然优于CoModGANmask,证实CM-GAN具有更好的生成能力。定性评价:图5、图6、图8展示了CM-GAN和SOTA方法在合成掩模方面的视觉对比结果。ProFill能够生成不连贯的全局结构,CoModGAN会生成结构伪影和色点,而LaMa容易在自然场景中出现大图像模糊。相比之下,CM-GAN方法产生更连贯的语义结构和更清晰的纹理,可以应用于不同的场景。为了验证模型中每个组件的重要性,该研究进行了一组消融实验,所有模型都在Places2数据集上进行训练和评估。消融实验的结果显示在下面的表2和图7中。该研究还进行了用户研究,以更好地评估CM-GAN方法的视觉生成质量,结果如下表5所示。此外,附录提供了更多的视觉对比和实验分析,供读者参考。