当前位置: 首页 > 科技观察

IEEE论文提出径向变换实现图像增强

时间:2023-03-12 08:54:51 科技观察

最近一篇题为《Training Neural Networks with Very Little Data-A Draft》的论文IEEE提出了一种训练小数据量神经网络的新方法,即通过极坐标空间的径向变换(radialtransform)用于图像增强。它并没有改变数据的信息内容,而是提高了数据的多样性,最终提高了神经网络的泛化性能。论文地址:https://arxiv.org/pdf/1708.04347.pdf摘要:深度神经网络是由许多节点层组成的复杂架构,导致训练时需要评估大量的参数,包括权重、偏差、等等。与更简单的架构相比,更大、更复杂的神经网络需要更多的训练数据才能正确收敛。但是,可用于训练网络的数据有限或不平衡。我们提出了用于图像增强的极空间径向变换,以帮助训练数据较少的神经网络。逐像素坐标变换提供了原始图像和增强数据在极坐标系中的表示,可以增加弱表示图像类别的多样性。使用我们提出的方法、MNIST实验和一系列使用AlxNet的多模型医学图像,GoogLeNet神经网络模型显示出极高的分类精度。图1:径向变换采样。a)使用径向变换将样本从笛卡尔坐标系(左)映射到极坐标系(右)。b)极坐标系中的径向变换。c)使用径向变换在256×256图像(2D平面)中筛选离散样本。任意选择的极点位于像素(170,50)。d)将c)中筛选的样本从极坐标系映射到笛卡尔坐标系。红色样本表示样本从c)映射到d)的方向。图2:来自MNIST数据集的样本和使用极坐标中的径向变换RT()的相应表示。图3:多模式医学数据集的样本,以及在极坐标系中使用径向变换的相应表示。表4:使用来自MNIST和医学多模式数据集的原始图像和径向变换图像训练的AlexNet和GoogLeNet模型的收敛行为。术语“RT”指的是径向变换的图像,术语“原始”指的是用很少的原始图像训练的模型。x轴表示训练迭代,左侧y轴表示训练时的模型损失,右侧y轴表示使用验证数据集训练时的模型准确性。表1:在原始和径向变换的多模态医学图像上训练的AlexNet和GoogLeNet的准确度(“Acc.”,单位为%)和置信度(“Conf.”,单位为%)。“Abd”是指腹部MRI,“Std”是标准偏差。粗体部分是***结果。表2:在原始和径向变换的MNIST图像上训练的AlexNet和GoogLeNet的准确度(“Acc.”,单位为%)和置信度(“Conf.”,单位为%)。“Std”是标准差。粗体部分是***结果。结论深度神经网络的成功训练需要大量均衡的数据。实际上,大多数数据集都是不平衡的,或者特定类别的数据集可用的数据有限。在本文中,我们提出了极坐标系中的径向变换以增加数据集中的样本量,从而有助于神经网络的训练。所提出的数据增强方法不改变数据的信息内容,但提高了数据的多样性。我们的结果表明,这种方法提高了神经网络的泛化性能,即机器学习模型预测未知数据输出值的准确性。在非常少的数据上训练最先进的AlexNet和GooLeNet神经网络模型表明,该方法在整个学习过程中会遭受训练损失和验证准确性的极端波动。