目前主流的语义分割算法本质上是一种基于softmax分类器的判别分类模型,它直接对p(类|像素特征)进行建模),同时完全忽略了底层像素数据分布,即p(类|像素特征)。这限制了模型对OOD(分布外)数据的表达能力和泛化能力。在最近的一项研究中,来自浙江大学、悉尼科技大学和百度研究院的研究人员提出了一种新的语义分割范式——基于高斯混合模型(GMM)的生成式语义分割模型GMMSeg。论文链接:https://arxiv.org/abs/2210.02025代码链接:https://github.com/leonnnop/GMMSegGMMSeg建模像素和类别的联合分布,通过EM算法GMM学习像素特征空间的高斯混合分类分类器,它在生成范式中精细地捕捉每个类别的像素特征分布。同时,GMMSeg使用判别损失来端到端地优化深度特征提取器。这使得GMMSeg兼具判别模型和生成模型的优点。实验结果表明,GMMSeg在各种分割架构和骨干网络中都取得了性能提升;同时,GMMSeg可以直接应用于异常分割,无需任何后处理或微调任务。迄今为止,这是第一种能够使用单个模型实例在封闭集和开放世界条件下实现最先进性能的语义分割方法。这也是生成分类器首次在大规模视觉任务中展现出优势。判别式与生成式分类器在深入研究现有的分割范式和提出的方法之前,这里先简要介绍一下判别式和生成式分类器的概念。假设有一个数据集D,其中包含成对的样本-标签对(x,y);分类器的最终目标是预测样本分类概率p(y|x)。分类方法可以分为两类:判别分类器和生成分类器。判别分类器:直接对条件概率p(y|x)建模;它只学习分类的最优决策边界,根本没有考虑样本本身的分布,因此不能反映样本的特征。生成分类器:先对联合概率分布p(x,y)建模,然后通过贝叶斯定理推导出分类条件概率;它显式地对数据本身的分布进行建模,并经常为每个类别建立相应的模型。与判别分类器相比,它充分考虑了样本的特征信息。主流语义分割范式:DiscriminativeSoftmaxClassifier目前主流的逐像素分割模型大多使用深度网络提取像素特征,然后使用softmax分类器进行像素特征分类。其网络架构由两部分组成:第一部分是像素特征提取器,其典型架构是编码器-解码器对,通过将RGB空间中的像素输入映射到D维的高维空间来获取像素特征.第二部分是像素分类器,是主流的softmax分类器;它将输入的像素特征编码成C类真实输出(logits),然后使用softmax函数对输出(logits)进行归一化并赋予概率意义,即使用logits计算像素分类的后验概率:最后,由两部分组成的完整模型将通过交叉熵损失进行端到端的优化:在这个过程中,模型忽略像素本身的分布,直接对像素分类预测的条件概率p(c|x)进行估计。可以看出,主流的softmax分类器本质上是一个判别分类器。判别分类器结构简单,由于其优化目标直接以减少判别误差为目标,往往能取得优异的判别性能。但与此同时,它也有一些致命的缺点,没有引起现有工作的重视,极大地影响了softmax分类器的分类性能和泛化能力:首先,它只对决策边界建模;完全忽略了像素特征,因此无法对每个类别的具体特征进行建模和利用;它削弱了它的泛化和表达能力。其次,它使用单个参数对(w,b)来建模一个类别;换句话说,softmax分类器依赖于单峰假设;这种极其强大和过于简单化的假设在实际应用中往往无法成立。结果,它只能实现次优性能。最后,softmax分类器的输出不能准确反映真实的概率意义;它的最终预测只能作为与其他类进行比较时的参考。这就是大量主流分割模型难以检测OOD输入的根本原因。针对这些问题,作者认为应该重新思考当前主流的判别范式,并在论文中给出了相应的解决方案:生成式语义分割模型——GMMSeg。生成式语义分割模型:GMMSeg的作者从生成模型的角度重新组织了语义分割过程。与直接对分类概率p(c|x)建模相比,生成分类器对联合分布p(x,c)建模,然后利用贝叶斯定理推导分类概率:其中,对于泛化,考虑类先验p(c)常被设置为均匀分布,如何对像素特征的类条件分布p(x|c)进行建模成为目前的首要问题。本文即在GMMSeg中,采用高斯混合模型对p(x|c)进行建模,其形式如下:在子模型(分量)数量不限的情况下,高斯混合模型理论上可以拟合任何的分布,因此非常优雅和强大;同时,其混合模型的性质也使得对多峰分布(multimodality)建模,即对类内变异建模成为可能。基于此,本文采用最大似然估计来优化模型的参数:其经典的解决方案是EM算法,即通过交替执行E-M-两个步骤逐步优化F-函数:具体针对高斯混合模型;EM算法实际上在E-step中,重新估计了一个数据点属于每个子模型的概率。也就是说,相当于在E-step中对像素进行软聚类;然后,在M-step中,聚类结果可用于再次更新模型参数。然而在实践中,作者发现标准的EM算法收敛速度较慢,最终效果较差。作者怀疑EM算法对参数优化的初值过于敏感,难以收敛到较好的局部极值点。受近期一系列基于最优传输理论的聚类算法的启发,作者在混合子模型的分布之前额外引入了一个均匀先验:相应地,将参数优化过程中的E-step转化为约束优化问题如下:这个过程可以直观地理解为在聚类过程中引入了一个等分布约束:在聚类过程中,可以在一定程度上将数据点平均分配给各个子模型。引入该约束后,该优化过程等价于如下最优运输问题:该方程可以使用Sinkhorn-Knopp算法快速求解。整个改进的优化过程被命名为SinkhornEM,已经被一些理论工作证明与标准EM算法具有相同的全局最优解,更不容易陷入局部最优解。在线混合(OnlineHybrid)优化后,在完整的优化过程中,文中采用了在线混合(onlinehybrid)优化模式:通过生成式SinkhornEM,在逐渐更新的特征空间中,不断的进行高斯混合。分类器被优化;而整个框架的另一部分,即像素特征提取器部分,使用基于生成分类器预测结果的判别交叉熵损失进行了优化。两部分交替优化对齐,使整个模型紧耦合,可以进行端到端的训练:在此过程中,特征提取部分仅通过梯度反向传播进行优化;而生成分类器部分仅通过SinkhornEMoptimize进行了优化。正是这种交替优化的设计使得整个模型能够紧凑地集成在一起,同时继承了判别模型和生成模型的优点。最后,GMMSeg得益于其生成分类架构和在线混合训练策略,展现了判别式softmax分类器所不具备的优势:首先,得益于其通用架构,GMMSeg兼容大多数主流分割模型,即兼容使用softmax进行分类的模型:只需替换判别式softmax分类器即可轻松提升现有模型的性能。其次,由于混合训练模式的应用,GMMSeg结合了生成分类器和判别分类器的优点,在一定程度上解决了softmax无法模拟类内变化的问题;大大提高了其判别性能。第三,GMMSeg对像素特征的分布进行显式建模,即p(x|c);GMMSeg可以直接给出样本属于每个类别的概率,这让它可以自然地处理看不见的OOD数据。实验结果实验结果表明,无论是基于CNN架构还是基于Transformer架构,GMMSeg在广泛使用的语义分割数据集(ADE20K、Cityscapes、COCO-Stuff)上都能实现稳定且明显的性能提升。另外,在异常分割任务中,不需要对闭集任务即常规语义分割任务中训练的模型做任何修改。GMMSeg在所有通用评价指标上都可以超越其他需要特殊后处理的模型。方法。
