当前位置: 首页 > 科技观察

当支持向量机会在神经网络上时:SVM与GAN距离的关系

时间:2023-03-15 19:35:20 科技观察

SVM是机器学习领域的经典算法之一。如果将SVM推广到神经网络会发生什么?支持向量机(SVM)是大多数AI从业者都熟悉的概念。它是一种监督学习模型和关联学习算法,用于在分类和回归分析中分析数据。给定一组训练实例,每个实例都被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个模型,将新实例分配给两个类别之一,使其成为非概率双元线性分类器。SVM模型将实例表示为空间中的点,这样映射使得各个类的实例被尽可能宽的不同间隔分隔开。然后,将新实例映射到同一空间,并根据它们落在区间的哪一侧来预测它们所属的类别。除了执行线性分类外,SVM还可以使用所谓的内核技巧有效地执行非线性分类,将其输入隐式映射到高维特征空间。本文将介绍蒙特利尔大学的一篇论文《SVM、Wasserstein 距离、梯度惩罚 GAN 之间的联系》。在本文中,研究人员展示了如何从同一框架中获得SVM和梯度惩罚GAN。据论文第一作者介绍,该研究的灵感来自于她的博士资格考试。在准备过程中,她研究了SVM,思考了这样一个问题:“如果将SVM推广到神经网络,会发生什么?”按照这个思路,研究人员发现了SVM、GAN和Wasserstein距离之间的关系。论文地址:https://arxiv.org/abs/1910.06922代码地址:https://github.com/AlexiaJM/MaximumMarginGANs本研究将最大间隔分类器(MMC)的概念扩展到任意范数和非线性函数。支持向量机是MMC的特例。研究人员发现,MMC可以形式化为积分概率度量(IPM)或具有某种形式的梯度范数惩罚的分类器。这表明它与梯度惩罚GAN直接相关。研究表明,WassersteinGAN、标准GAN、最小二乘GAN和带有梯度惩罚的HingeGAN中的判别器都是MMC,并解释了最大化边缘在GAN中的作用。研究人员假设L^∞范数惩罚和Hingeloss生成的GAN优于L^2范数惩罚生成的GAN,并通过实验验证。此外,该研究还得出了相对论配对(Rp)和平均(Ra)GAN的区间。本文由几个部分组成:在第二章中,研究人员回顾了SVM和GAN;在第三章中,研究人员概述了最大边际分类器(MMC)的概念;在第四章中,研究人员使用梯度惩罚来解释MMC和GAN之间的联系的建立。其中4.1提到强制1-Lipschitz等价于假设有界梯度,也就是说Wasserstein距离可以用MMC公式来近似;4.2描述了在GAN中使用MMC的好处;4.3假设L1范数区间可以导致更Robust的分类器;4.4推导RelativisticpairedGAN和RelativisticaverageGAN的区间。最后,第5章提供了实验结果来支持文章的假设。SVM是MMC的特例。MMC是一个最大化margin的分类器f(margin是决策边界和数据点之间的距离)。决策边界是我们无法分辨样本类别的区域(所有x使得f(x)=0)。Soft-SVM是最大化最小L2范数区间的特例。下图显示了Soft-SVM的运行情况:在解释这个结果之前,我们需要了解一个关键要素。“区间”有多种定义:(1)样本与边界的最小距离;(2)离边界最近的点与边界的最小距离。定义(2)更为常用。但是如果使用这个定义,那么无论是SVM文献中所谓的“功能边际”还是“几何边际”都不能认为是边际。这可能非常令人困惑。理解这种差异的更好方法是将(1)视为“样本间隔”;将(2)视为“数据集的区间”。但是,为了消除这两种情况的歧义,本文将前者称为“保证金”,将后者称为“最低保证金”。Hard-SVM(以其原始形式)解决了最大化最小间隔的问题。Soft-SVM解决了另一个更简单的问题——最大化预期的soft-margin(最小化预期的Hinge损失)。这个问题很容易解决,铰链损失确保远离边界的样本不会对错误复制Hard-SVM效果的尝试产生任何影响。从这个角度来看,最大化期望间隔(而不是最大化最小间隔)仍然会导致最大间隔分类器,但是分类器可能会受到远离边界的点的影响(如果不使用铰链损失)。因此,最大化预期边际意味着最大化任何样本(即数据点)和决策边界之间的平均距离。这些方法是最大间隔分类器(MMC)的示例。为了尽可能通用,本研究设计了一个框架来推导MMC的损失函数。我们观察到该框架可以推导出基于边缘的目标函数(目标函数F的形式为F(yf(x))),并带有梯度惩罚。这意味着标准GAN、最小二乘GAN、WGAN或HingeGAN-GP都是MMC。所有这些方法(当使用像WGAN-GP这样的L2梯度范数惩罚时)最大化预期的L2范数间隔。研究人员还表明,大多数使用Lipschitz-1鉴别器的GAN(光谱归一化HingeGAN、WGAN、WGAN-GP等)都可以表示为MMC,因为假设1-Lipschitz等同于假设梯度有界(因此,可以用作为梯度惩罚的一种形式)。重要的是,这意味着我们可以将最成功的GAN(BigGAN、StyleGAN)视为MMC。假设Lipschitz-1判别器已经被视为实现良好GAN的关键因素,但它可能需要一个能够最大化margin的判别器和一个相对判别器(RelativisticDiscriminator)。本研究基于MMC鉴别器为伪生成样本带来更多梯度信号的事实,论证了MMC鉴别器的优势。说到这里,读者可能会有疑问:“是不是有些间距比其他间距更好?如果是这样,我们能做出更好的GAN吗?”这两个问题的答案都是肯定的。最小化L1范数的损失函数比最小化L2范数的损失函数对异常值更稳健。基于这一事实,研究人员提出质疑:L1范数区间会导致分类器更加鲁棒,生成的GAN也可能优于L2范数区间。重要的是,L1范数区间会产生L∞梯度范数惩罚,而L2范数区间会产生L2梯度范数惩罚。本研究进行的实验表明,L∞梯度范数惩罚(由使用L1区间产生)导致更好的GAN性能。此外,实验表明HingeGAN-GP通常优于WGAN-GP(这是有道理的,因为铰链损失对远离边界的异常值具有鲁棒性),并且仅惩罚大于1的梯度范数效果更好(而不是使所有梯度范数方法1,如WGAN-GP)。因此,尽管这是一项理论研究,但研究人员发现了一些对改进GAN非常有用的想法。使用此框架,研究人员能够为相对论配对(Rp)GAN和相对论平均(Ra)GAN定义决策边界和间隔。人们常常想知道为什么RpGAN的性能不如RaGAN,在这篇文章中,研究人员对此进行了解释。使用L1-norm区间的想法只是冰山一角,这个框架还允许更好的GAN设计具有更稳健的区间(从而提供更好的梯度惩罚或“谱”归一化技术)。最后,该研究还为为什么梯度惩罚或1-Lipschitz对不估计Wasserstein距离的GAN有效提供了明确的理论基础,更多细节可以在原始论文中找到。