本文总结了使用CNN进行图像语义分割时网络结构的创新。这些创新主要包括新的神经架构(不同深度、宽度、连接和拓扑结构)的设计和新组件或层的设计。前者是利用现有组件组装复杂的大型网络,而后者更倾向于设计底层组件。首先介绍了一些经典的语义分割网络及其创新点,然后介绍了网络结构设计在医学图像分割领域的一些应用。1.图像语义分割网络结构创新1.1FCN网络FCN整体架构图FCN网络单独列出是因为FCN网络是第一个从新的角度解决语义分割问题的网络。以往基于神经网络的图像语义分割网络是利用以待分类像素为中心的图像块来预测中心像素的标签。一般采用CNN+FC策略构建网络。显然,这种方法不能利用图像的全局上下文信息,并且逐像素推理速度很低;而FCN网络摒弃了全连接层FC,全部使用卷积层构建网络。通过转置卷积和不同层特征融合的策略,网络输出直接是输入图像的预测mask,效率和准确率都大大提高。FCN不同层特征融合示意图创新点:全卷积网络(不含fc层);转置卷积deconv(反卷积);不同层的featuremapsskipconnection(addition)1.2Enconder-decoderSegNet和FCN网络的思路基本一致。encoder部分使用了VGG16的前13层卷积。区别在于Decoder部分的Upsampling方式。FCN通过对featuremap进行deconv得到的结果与encoder对应尺寸的featuremap相加得到上采样结果;而SegNet使用Encoder部分的maxpool的索引来进行Decoder部分的上采样(原文描述:解码器对较低分辨率的输入特征图进行上采样。具体来说,解码器使用相应的max-pooling步骤中计算的poolingindices编码器执行非线性上采样。)。创新点:Encoder-Decoder结构;合并索引。SegNet网络SegNet和FCN的Upsample方法对比U-Net网络最初是为生物医学图像设计的,但由于其在四年级的表现,UNet及其变体已经广泛应用于CV的各个子领域。UNet网络由一个U通道和一个跳跃连接组成。U通道类似于SegNet的codec结构。编码部分(收缩路径)执行特征提取并捕获上下文信息,解码部分(扩展路径)使用解码特征。图来预测像素标签。短路通道提高了模型精度,解决了梯度消失问题。特别需要注意的是短路通道的featuremap和上面使用的featuremap是拼接的而不是相加的(区别于FCN)。创新点:U型结构;short-circuitchannel(skip-connection)U-Net网络V-Net网络结构与U-Net类似,不同的是架构增加了skipconnections,用3D算子代替2D操作来处理3DImage(体积图像).并针对Dice等广泛使用的细分指标进行了优化。V-Net网络创新点:相当于3D版的U-Net网络FC-DenseNet(100-layerTiramisunetwork)(论文题目:TheOneHundredLayersTiramisu:FullyConvolutionalDenseNetsforSemanticSegmentation)网络结构由它采用密集连接块(DenseBlock)和UNet架构构建。该网络的最简单版本包含两个用于向下转换的下采样路径和两个用于向上转换的上采样路径。它还包含两个水平跳跃连接,用于将来自下采样路径的特征图与上采样路径中的相应特征图拼接在一起。上采样路径和下采样路径中的连接模式并不完全相同:在下采样路径中,每个denseblock外都有一个skipconcatenationpass,导致featuremap数量线性增加,而在上采样路径中没有这样的操作。(还有一点,这个网络的缩写可以是DenseUnet,不过有一篇论文叫FullyDenseUNetfor2DSparsePhotoacousticTomographyArtifactRemoval,是一篇关于光声成像去伪影的论文,看到很多博客都引用这个paper里面的插图讲的是语义分割,根本不是一回事好吗=_=||,自己分辨就好了。)FC-DenseNet(100层提拉米苏网络)创新点:融合DenseNet和U-Net网络(从信息交换的角度来看,密集连接确实比残差结构更强大)Deeplab系列网络是在codec结构的基础上提出的改进版本,DeeplabV3+网络在2018年的VOC2012和Cityscapes数据集上表现良好,达到SOTA水平。DeepLab系列共有四篇论文,V1、V2、V3和V3+。简单总结一下部分论文的核心内容:1)DeepLabV1:卷积神经网络与概率图模型的融合:CNN+CRF,提高了分割定位的精度;2)DeepLabV2:ASPP(扩展空间金字塔池化);CNN+CRF3)DeepLabV3:改进了ASPP,增加了1*1卷积和全局平均池化(globalavgpool);比较了级联和平行孔卷积的效果。CascadedAtrousConvolutionParallelAtrousConvolution(ASPP)4)DeepLabV3+:添加编解码器架构思想,添加解码器模块扩展DeepLabv3;将深度可分离卷积应用于ASPP和解码器模块;使用改进的Xception作为Backbone。DeepLabV3+总的来说,DeepLab系列的核心贡献:Atrousconvolution;ASPP;CNN+CRF(只有V1和V2使用了CRF,应该是V3和V3+通过深度网络解决了分割边界模糊的问题,效果比CRF好)PSPNet(金字塔场景解析网络)提升能力网络通过聚合不同区域的上下文信息来利用全局上下文信息。在SPPNet中,金字塔池化生成的不同层级的特征图最后被压平拼接,然后送入全连接层进行分类,消除了CNN对图像分类需要固定输入尺寸的限制。在PSPNet中,使用的策略是:pooling-conv-upsample,然后concatenatefeaturemap,然后进行labelprediction。PSPNet网络创新:多尺度池化,更好地利用全局图像级先验知识来理解复杂场景RefineNet通过细化中间激活图并将它们分层连接来结合多尺度激活,同时防止锐度损失。该网络由独立的Refine模块组成,每个Refine模块由三个主要模块组成,即:ResidualConvolutionalUnit(RCU)、Multi-ResolutionFusion(MRF)和ChainResidualPooling(CRP)。整体结构有点类似于U-Net,但是在skipconnection处设计了一个新的组合(不是简单的concat)。个人觉得这个结构其实很适合作为自己网络设计的思路。可以添加到其他很多CV问题中用到的CNN模块中,以U-Net作为整体框架,效果也不会太差。RefineNet网络创新:Refinemodule1.3降低计算复杂度的网络结构也有很多工作致力于降低语义分割网络的计算复杂度。一些简化深度网络结构的方法:张量分解;频道/网络修剪;稀疏连接。也有一些结构使用NAS(NeuralArchitectureSearch)代替人工设计来搜索模块或整个网络。当然,AutoDL需要的GPU资源会让一大批人望而却步。因此,有人采用随机搜索的方式,搜索小得多的ASPP模块,然后根据这些小模块构建整个网络模型。网络的轻量化设计是业界的共识。移动部署不可能每台机器都配一个2080ti。此外,功耗、存储等问题也会限制该机型的推广应用。但是,如果5G能够普及,所有的数据都可以在云端处理,这会很有意思。当然,短期内(十年),5G的全面部署是否可行还不得而知。1.4AttentionMechanism-BasedNetworkStructure注意力机制可以定义为:利用后续层/特征映射信息来选择和定位输入特征映射中最具判断力(或显着性)的部分。它可以简单地认为是一种对特征图进行加权的方式(权重由网络计算)。根据加权方式的不同,可以分为通道注意力机制(CA)和空间注意力机制(PA)。FPA(FeaturePyramidAttention,特征金字塔注意)网络是一种基于注意力的语义分割网络,它结合了注意力机制和空间金字塔来提取复杂的特征用于像素级标记而不需要扩张的卷积和人工设计的解码器网络。1.5基于对抗学习的网络结构Goodfellowetal.2014年提出了一种学习深度生成模型的对抗方法。在生成对抗网络(GANs)中需要同时训练两个模型:捕获数据分布的生成模型G,和估计样本来的概率的判别模型D从训练数据。●G是生成网络,接收一个随机噪声z(随机数),通过这个噪声生成图像。●D是判别网络,判断一张图片是否“真实”。它的输入参数是x(一张图片),输出D(x)表示x是真实图片的概率。如果为1,表示100%是真实图片,如果输出为0,表示不可能是真实的。图片。G的训练过程是最大化D出错的概率。可以证明,在任意函数G和D的空间中,存在唯一解使得G再现训练数据分布且D=0.5。在训练过程中,生成网络G的目标是尽可能生成真实图片来欺骗判别网络D。D的目标是尽可能将G生成的假图像与真实图像区分开来。这样,G和D就构成了一个动态的“博弈过程”,最终的均衡点就是纳什均衡点。在G和D由神经网络定义的情况下,整个系统可以通过反向传播进行训练。受GAN的启发,Luc等人。训练了语义分割网络(G)和对抗网络(D),对抗网络将分割图与地面实况或语义分割网络(G)区分开来。G和D是通过博弈不断学习的,它们的损失函数定义为:GANs损失函数回顾一下原来的GAN损失函数:GANs的损失函数体现了零和博弈的思想,损失函数原始GANs的计算位置如下:loss的计算位置在D(判别器)的输出处,D的输出一般是假/真判断,所以整体可以认为是一个二元交叉熵函数。从GANs的损失函数形式可以看出,训练分为两部分:首先是maxD部分,因为训练一般保持G(生成器)不变,训练D。D的训练目标是正确辨别真假。如果我们用1/0来表示真/假,那么对于第一项E,因为输入是从真实数据中采样的,所以我们期望D(x)趋近于1,也就是第一项较大。同理,第二项E输入是从G中采样生成数据,所以我们期望D(G(z))更好地趋近于0,也就是说第二项更大。所以就是这部分期望训练让整体变大,这就是maxD的意思。这部分只更新D的参数,第二部分保持D不变(不更新参数),训练G,此时只有第二项E有用。关键就在这里,因为我们要混淆D,所以此时把label设置为1(我们知道是假的,所以叫混淆),不如希望D(G(z)的输出)越接近1,即item越小越好,这就是minG。当然判别器不是那么好骗的,所以这时候判别器会产生一个比较大的误差,误差会更新G,G就会变得更好。这次没骗你,下??次只能更加努力了。(引自https://www.cnblogs.com/walter-xh/p/10051634.html)。此时只更新G的参数。从另一个角度看GANs,判别器(D)相当于一个特殊的损失函数(由神经网络构成,不同于传统的L1、L2、交叉熵等损失函数)。另外,GANs的训练方式比较特殊,存在梯度消失、modecollapse等问题(目前好像有办法解决),但它的设计思路确实是深度学习时代的伟大发明。1.6总结大多数基于深度学习的图像语义分割模型都遵循encoder-decoder架构,例如U-Net。近年来的研究结果表明,扩张卷积和特征金字塔池化可以提高U-Net式网络性能。在第2节中,我们总结了如何将这些方法及其变体应用于医学图像分割。2.网络结构创新在医学图像分割中的应用本部分介绍网络结构创新在2D/3D医学图像分割中的一些应用研究成果。2.1基于模型压缩的分割方法为了实现高分辨率2D/3D医学图像(如CT、MRI、组织病理学图像)的实时处理,研究人员提出了多种压缩模型方法。翁等人将NAS技术应用于U-Net网络,获得了在CT、MRI和超声图像上具有更好器官/肿瘤分割性能的小型网络。Brugger重新设计了U-Net架构,利用groupnormalization(组归一化)和Leaky-ReLU(leakyReLU函数),使网络对3D医学图像分割的存储效率更高。也有人设计了参数更少的扩展卷积模块。其他一些模型压缩方法包括权重量化(十六位、八位、二进制量化)、蒸馏、剪枝等。2.2编码-解码结构的分割方法Drozdal提出了一种在将图像送入分割网络之前应用简单的CNN对原始输入图像进行归一化处理的方法,改进了单亚显微镜图像分割、肝脏CT和前列腺MRI。分割精度。顾建议在骨干网络中使用扩张卷积来保留上下文信息。Vorontsov提出了一个图到图的网络框架,将有ROI的图像转换为没有ROI的图像(例如,有肿瘤的图像转换为没有肿瘤的健康图像),然后将模型移除的肿瘤添加到新的健康图像中,从而获得对象的详细结构。周等。提出了一种重新连接U-Net网络的跳跃连接的方法,并在胸部低剂量CT扫描中执行结节分割、显微镜图像中的核分割、腹部CT扫描中的肝脏分割和结肠镜检查。在检查视频中的息肉分割任务中测试了性能。Goyal将DeepLabV3应用于皮肤镜彩色图像分割以提取皮肤病变区域。2.3基于注意力机制的分割方法Nie提出了一种注意力模型,与基线模型(V-Net和FCN)相比,它可以更准确地分割前列腺。SinHa提出了一种基于多层注意机制的网络,用于MRI图像中的腹部器官分割。秦等。提出了一种扩张的卷积模块来保留3D医学图像的更多细节。基于注意力机制的血液图像分割还有很多其他论文。2.4基于对抗学习的分割网络Khosravan提出了一种对抗训练网络,用于从CT扫描中分割胰腺。使用生成对抗网络进行Son视网膜图像分割。Xue使用全卷积网络作为生成对抗框架中的分割网络,实现了MRI图像的脑肿瘤分割。还有其他论文成功地将GANs应用于医学图像分割问题,我就不一一列举了。2.5基于RNN的分割模型递归神经网络(RNN)主要用于处理序列数据。长短期记忆网络(LSTM)是RNN的改进版本。LSTM通过引入自循环使梯度流能够长期保持。在医学图像分析领域,RNN用于对图像序列中的时间依赖性建模。Bin等人。提出了一种结合全卷积神经网络和RNN的图像序列分割算法,将时间维度的信息融入到分割任务中。高等。使用CNN和LSTM对大脑MRI切片序列中的时间关系进行建模,以提高4D图像的分割性能。李等。首先使用U-Net得到初始分割概率图,然后使用LSTM从3DCT图像中分割出胰腺,提高了分割性能。使用RNN进行医学图像分割的论文还有很多,这里就不一一介绍了。2.6小结这部分主要是分割算法在医学图像分割中的应用,所以创新点不多,主要针对不同格式的数据(CT或RGB、像素范围、图像分辨率等)和不同部位特征的数据(噪声、物体形状等),经典网络需要针对不同的数据进行改进,以适应输入数据的格式和特征,从而更好地完成分割任务。深度学习虽然是一个黑盒子,但是整个模型的设计还是有规律可循的。可以根据具体的分割问题选择什么策略解决什么问题,引起什么问题,以达到最优的分割性能。部分参考文献:1.自然和医学图像的深度语义分割:综述2.NAS-Unet:医学图像分割的神经结构搜索。IEEEAccess,7:44247–44257,2019.3.Boostingsegmentationwithweaksupervisionfromimage-to-imagetranslation。arXiv预印本arXiv:1904.01636,20194.Multi-scaleguidedattentionformedicalimagesegmentation。arXiv预印本arXiv:1906.02849,2019.5.SegAN:用于医学图像分割的具有多尺度L1损失的对抗网络。6.用于联合4D医学图像分割的全卷积结构LSTM网络。2018年IEEE7https://www.cnblogs.com/walter-xh/p/10051634.html
