当前位置: 首页 > 科技观察

基于间距自适应查找表的实时图像增强方法

时间:2023-03-18 00:00:51 科技观察

近日,阿里巴巴大数据技术部与上海交通大学图像通信与网络工程研究所(简称图像研究所)的联合论文《AdaInt:Learning Adaptive Intervals for 3D Lookup Tables on Real-time Image Enhancement》被被顶级国际会议CVPR2022接受。所有代码和模型都是开源的。CVPR作为计算机视觉领域的三大顶级会议之一,每年都是学术界的重要事件之一。CVPR的全称是TheConferenceonComputerVisionandPatternRecognition,即计算机视觉与模式识别会议,是由IEEE主办的最高国际学术会议。该会议每年在世界各地举行,讨论范围广泛,涉及与图像或视频模式提取或识别相关的主题。常见主题包括对象识别、对象检测、图像分割、图像恢复和图像增强。今年的CVPR大会共收到来自全球各地的8161篇有效论文投稿。经过大会主席和众多审稿人的努力,大会共接收论文2067篇,总接收率约25.33%。本文首次提出了一种创新技术,通过深度学习对输入图像自适应学习具有非均匀布局的3D颜色查找表,从而有效地对输入图像进行颜色增强,并在公共模拟数据上取得了最佳性能设置在学术界。客观指标(PSNR)同时达到最快的运行速度。本文提到的色彩增强技术具有效果好、速度快的特点。可以实现对4K视频的高效处理,提高其色彩饱和度和对比度。因此,它适用于实时流媒体场景,可以更通用的方式使用,帮助提升直播间的画质呈现。论文地址:https://arxiv.org/abs/2204.13983项目地址:https://github.com/ImCharlesY/AdaInt作者单位:大淘宝科技、上海交通大学、大连理工大学背景色增强是基础图像处理的内容之一是相机成像系统的核心组成部分之一,广泛体现在数字图像成像链的各个应用阶段。其主要目的是通过对原始图像的处理,使其更符合人的视觉特征或显示设备的显示要求。近年来,主流的基于深度学习的颜色增强方法将增强过程简化为单个全卷积网络。通过数据驱动的端到端学习,这些方法可以在公共数据集上实现最先进的颜色增强。然而,全卷积范式也给网络推理带来了高时空计算复杂度,尤其是在超高分辨率图像(如4K及以上)上,这限制了这些方法的实际应用。最新的研究工作[1]表明,大多数色彩增强/美化算子(如白平衡、饱和度控制、色调映射、对比度调整、曝光补偿等)都属于点运算的范畴。变换算子的参数将根据图像的整体或局部统计特征来确定,但变换算子本身对图像的操作和编辑是与位置和像素无关的。它们的级联在整体效果上大约相当于一个单一的三维颜色变换,即函数映射公式。该映射将输入图像中的一个色点映射到相同颜色空间或不同颜色空间中的另一个颜色点。一个直观的想法是将一系列增强变换算子组合成一个单一的颜色变换算子,从而减少一系列变换操作带来的计算量,减少累积误差对增强效果的影响。在这种情况下,3D查找表(3DLUT)是一种非常有价值的数据结构。它遍历变换函数所有可能的输入颜色组合,并记录相应的输出颜色结果,可用于复杂的颜色变换函数的高效建模,广泛应用于计算机硬件设计、相机成像系统等。然而,完整输入空间的遍历往往会带来沉重的内存开销。比较常用的方法是稀疏查找表:对输入空间进行稀疏采样,只记录采样点对应的输出;对于未被采样的点,其变换输出是通过对最近邻采样点的输出进行线性插值得到的。因此,稀疏查找表本质上是对原始变换函数的有损逼近,其变换能力的损失体现在用分段线性函数拟合原始变换函数的潜在非线性部分。工作动机由于3DLUT的计算效率和稳定稳健的颜色变换能力,最新的研究工作[2]结合了3DLUT高效的计算性能和深度神经网络强大的数据特征提取能力,通过深度网络从图像自适应生成稀疏3D查找表用于实时色彩增强,展示了3DLUTs在基于深度学习的自适应色彩增强中的可行性和有效性。然而,在通过深度网络自适应预测稀疏3DLUTs时,现有工作仅考虑了3DLUTs中记录的输出值的图像适应性,而是对所有不同图像采用统一的均匀稀疏点采样策略(结合3D输入颜色空间被离散化为等间隔的三维网格),未能有效考虑输入空间中稀疏3DLUT中采样点的分布也应根据图像内容进行自适应调整。缺少这一重要的建模能力导致该方法学习到的3DLUT中稀疏采样点的分配策略不理想,从而限制了最终生成的3DLUT的模型转换能力。这具体表现为:由于采样点的稀疏性以及3DLUT变换中采用线性插值带来的非线性变换表达能力的丧失,均匀采样策略可能会将颜色相似的输入像素量化到相同的网格间隔3DLUT当这些输入像素对应的输出值需要很高的非线性对比度时(比如在弱光条件下增强图像中具有明显色差的纹理区域时),单个LUT网格只能提供线性颜色渲染.拉伸变换,这可能会导致变换结果的颜色平滑。这种现象可以类比为数字信号处理领域中由于采样频率不满足奈奎斯特-香农采样定律而导致的信号失真,如下左示意图所示。理想情况下,增加稀疏采样点的数量或引入非线性插值可能会有效缓解非线性变换能力不足的问题,但也会显着增加3DLUT方法的计算和内存复杂度,牺牲LUT的实时性方法。性别。另外,如下右半部分示意图所示,在均匀采样策略中直接增加采样点数也会加剧3DLUT对颜色变换平面区域的影响(比如输出颜色只是一个输入颜色的线性拉伸)甚至在输入颜色空间上对LUT中像素分布很少的区域进行过采样会导致3DLUT模型容量和内存消耗的浪费。方法介绍针对现有工作中局部非线性颜色变换建模能力不足的挑战,因为它是通过输入空间中具有均匀量化间隔的有限稀疏采样点来完成3DLUT的构建,我们提出了一种基于采样的自适应学习方法间距。3DLUT方法为上述挑战提供了一种高级解决方案,即AdaptiveIntervalsLearning(AdaInt)。具体来说,我们提出并设计了一种轻量级且紧密支持的3D色彩空间动态采样间隔预测机制,作为3DLUT方法的即插即用模块,它根据输入图像内容自适应地预测3DLUT中的稀疏采样.点数如何分配。通过为模型提供3D色彩空间自适应和非均匀采样的能力,模型有望在需要强非线性变换的色彩空间分配更多的采样点,以提高3DLUT的局部非线性变换能力。较平坦的区域分配较少的采样点以减少3DLUT的容量冗余,从而提高3DLUT方法的灵活性和图像适应性。所提方法的整体模型框架如上图所示。我们以待增强图像作为模型输入,自动输出高质量的彩色增强图像,并计算输出图像与人工美化后的目标图像的MSE重建损失,从而实现端到端的整个方法框架的学习。在具体的模型结构上,我们使用轻量级卷积神经网络,将输入图像降采样到固定分辨率(256x256像素)作为输入,同时通过网络预测图像自适应3DLUT的两个核心组成部分——非均匀输入颜色样本坐标和相应的输出颜色值。在3DLUT的输出颜色值上,我们延续现有工作[2]采用的方法——通过网络自动预测系数,对每幅图像动态加权合并多个可学习的Basis3DLUT,避免直接回归到所有的输出都引入了大量的网络参数和颜色值带来的计算复杂度。对于非均匀输入颜色采样坐标,我们假设3DLUT的三个颜色维度在查找过程中是相互独立的;这样我们就可以分别预测每个颜色维度的一维采样坐标序列,通过笛卡尔子积(n-aryCartesianProduct)得到对应的三维采样坐标。这两个组件组合在一起形成一个具有自适应、非均匀3D布局的3DLUT,它可以通过我们精心设计的名为AiLUT-Transform的新型可微运算符有效地为原始输入图像着色。改造和提升。具体地,我们通过在标准查找表变换的查找过程中引入低复杂度的二分查找来确定输入颜色在非均匀布局查找表中所在的网格,并推导偏微分由于网络自动预测非均匀统一颜色采样坐标为端到端学习提供梯度。实验结果本文提出的AdaInt模块可以显着提高基线3D查找表方法的增强效果,参数和计算量的增加可以忽略不计,如下图所示。3DLUT是通过可视化不同输入图像的网络来学习的。如下图所示,我们可以观察到网络对于弱曝光(左子图)和强曝光(右子图)的不同输入图像预测的采样坐标(如第三行竖线所示)),它们分别聚集在图像的不同灰度值区域。这反映了所提出的方法具有在3D颜色空间中自适应采样3DLUT的能力,正如预期的那样,在一定程度上在大规模数据先验中。在两个公开的图像增强/美化数据集FiveK和PPR10K上,所提出的方法在增强图像的客观评价指标上以更低的整体参数量和实时推理时间超越了现有方法,取得了先进的性能。总结在本文中,我们简要介绍了一种新颖的学习机制——AdaInt——可用于强化可学习的3DLUT以实现实时色彩增强。中心思想是引入图像自适应采样间隔来学习非均匀3DLUT布局。在两个公开可用的数据集上的实验结果证实,该方法在性能和效率方面优于其他最先进的现有方法。此外,作者认为,我们方法中嵌入的想法,复杂的底层变换函数或表示的非均匀采样的观点不限于3DLUT,也可能指导其他应用程序的改进,我们将其留作我们的未来工作。