当前位置: 首页 > 科技观察

如果你想深入了解机器学习,这里有一招教你如何成为高手!

时间:2023-03-14 19:56:44 科技观察

作为模式识别或者机器学习的爱好者,同学们一定听说过支持向量机的概念,这是机器学习中绕不开的重要问题。其实关于这个知识点还有一个很流行很有趣的传说:很久以前,在一个村子里住着一位退隐的英雄。据说男主的剑法很好。在一个风雨交加的黑夜,恶魔夺走了英雄的妻子。男主拿出尘封多年的宝剑,为救妻子来到魔王城。但是魔鬼要求和他玩游戏。魔王把两种颜色的球放在桌上,说道:“用你手中的剑把它们分开,要求是球放多了,还是适用。”准确分离两种球的裂缝。然后魔鬼在桌子上放了更多的球,英雄也这样做,举起剑又放下了。虽然一球分得不准,但还是做得不错。男主发现,剑痕最好的位置就是让剑痕和两边的球之间的空隙尽可能大。有了这样的想法,现在就算鬼子放的球再多,也能画好分界线。鬼子当然不会放过,扔出一堆球:把他们分开。男主看到球是这样放的也是有点懵。就在魔王开启嘲讽模式的时候,男主想到了一个新的办法。他左手一拍桌子,球飞到空中。紧接着,他腾空而起,手中长剑划出一道光波,直接从两种球体的中间穿过。从魔鬼的角度看球,它们似乎被一条曲线隔开。英雄救了他的妻子,然后这个故事在村子里流传开来,被编成了一个美丽的故事。成为了当下支持向量机的传奇。听完这个故事,是不是对支持向量机有了更感性的认识呢?今天班主任就来给大家详细讲讲线性支持向量机的问题。支持向量机SVM支持向量机(SupportVectorMachine,以下简称SVM)主要用于解决模式识别领域的数据分类问题,是一种有监督的学习算法。SVM要解决的问题可以用一个经典的二分类问题来描述,也就是我们开头讲的那个传说。如图a,二维坐标中有一堆红球和蓝球,能不能用一条直线隔开呢?显然是可以的,而且满足这个条件的直线显然不止一条。这类问题在模式识别领域被称为线性可分问题。支持向量图b和c分别展示了两种不同的分类方案,其中黑色实线为分界线,称为“决策面”。不同的分类器(如决策树、神经网络、逻辑回归)会给出不同的分类边界,它们都在寻找一个“最佳”的决策边界。SVM的意义也是如此。以图(b)为例,虚线的位置由决策面的方向和离决策面最近的几个样本的位置决定。两条虚线之间的垂直距离就是决策面对应的分类区间。显然,每个可能的方向都有一个最大决策面,在该方向上可以正确分离数据集。然而,对于不同方向的决策面,它们的分类区间通常是不同的。具有“最大区间”的决策面就是SVM要寻找的最优解。最优解两边虚线所经过的样本点是SVM中的支持样本点,称为支持向量。回到图(b)中的数据,A决策面就是SVM要寻找的最优解,虚线上对应的三个样本点,坐标系中对应的向量称为支持向量。***DecisionBoundary那么如何判断一个decisionboundary呢?先看一下SVM的关键假设:决策边界两边距离最近的样本到决策边界的区间为***,此时的决策边界就是***决策边界。以上示例的间隔是二维平面中的示例。在样本空间中,划分超平面可以用下面的线性方程来描述:其中w是法向量,它决定了超平面的方向;b是位移,决定了超平面到原点的距离。对于训练样本(xi,yi),满足下式:式(2)称为***区间假设,yi=+1表示样本为正样本,yi=?1表示样本是负样本。经过一系列的变换,就可以得到区间的最终表达式。区间最大化SVM的思想是最大化区间,即:显然,最大化2||w||等价于最小化||w||,式(6)可以转化为:式(7)是支持向量机的基本类型。对偶问题的求解——拉格朗日乘子公式看到这种约束极小问题,我们很自然地想到了拉格朗日乘子法。由此可以得到最终解的模型:从这个结论可以看出支持向量机的重要特点:训练完成后,大部分样本不需要保留,最终的模型只与支持向量有关。应用场景近年来,SVM在图像识别、信号处理、基因图谱识别等方面得到了广泛的应用,例如在无人驾驶技术中,需要对道路箭头进行识别,这里就用到了SVM。作为另一个例子,方向梯度直方图(HOG)特征是计算机视觉和图像处理中用于对象检测的特征描述符。如今,HOG特征结合SVM分类器已广泛应用于图像识别,尤其是行人检测,并取得了巨大的成功。支持向量机VS深度学习SVM与深度学习(DeepLearning,以下简称DL)相比,有哪些特点和适用场景?总的来说,SVM在解决中小数据规模(相对较小)、非线性(惩罚变量)、高维(核函数)模式识别方面有很大的优势。DL处理的对象主要是图像和声音,其优势在于对原始特征的表征。但是,神经网络相当于一个黑盒模型,在一些关键应用中,会存在较高的风险。例如,在智慧医疗中,如果医生使用基于深度学习的系统,但由于神经网络的“黑箱”特性,无法向患者解释诊断原理,用户极有可能拒绝,因为风险高。但如果你选择SVM这种纯粹来源于可靠的数学理论且具有更好的可解释性的SVM,用户对这类产品的选择率就会更高。