简介:本文的首席执行官注释将介绍SVM处理的最大数据的相关内容。我希望这对每个人都会有所帮助。让我们来看看。
对于大型机器学习,您可以参考[1,2,3]的讨论。明显地,大小是相对概念,在机器学习的背景下,也不例外。什么是大范围,很大程度上取决于您面临的应用程序和可用的计算资源。作为机器学习的主要应用程序字段之一,它是否能够处理由Google或Taobao等重量级网站生成的数据,例如从技术的角度来看,有几个流域可以处理统计学习算法可以处理的数据量表:1)算法是否取决于训练集的随机访问。取决于将要加载到内存的训练集,并且可以处理的数据量受内存大小的限制。2)算法是否可以有效地使用分布式(或平行)计算资源。毕竟,单计算机(或单个处理器)受到限制。如果可用的计算资源增加了100倍,则该算法可以处理的数据量远小于100时间,那么算法的应用范围也将受到很大的限制。以上主要是讨论训练集的规模。实际上,将需要考虑更多问题,例如数据维度的数量,分类类别的数量,测试中的效率等。相关文献。如[3](传统?)中提到统计学习的核心问题是,当样本不足时,如何获得具有强大概括能力的模型,但是对于大规模学习,障碍通常是在算法的计算能力不足的情况下,数据还不够,因此可以是说传统的统计学习方法不适合大规模数据处理(不仅仅是SVM)。由于促进了互联网应用程序,近年来该领域有许多新的结果。总的来说,基于支持向量机器的大规模线性分类的问题可以很好地解决。[4]更好地摘要现有结果,[2]有一个很好的摘要,总结了需要解决的问题。对于非线性分类问题,基于双重分解(或SMO)方法的非线性分类问题,SVM-Light和LiBSVM仍被广泛使用。在最坏的情况下,复杂性是o(训练样本的平方),不适合大规模数据的大规模数据。培训的集合。PEGASOS的复杂性[5]与数量有线性关系训练样本,但实验的效率不高于SMO方法。ShengJia的PSVM [6]使用分布式计算资源来减少训练时间。非线性SVM的最大问题不是培训时代的价格,而是要检测该时代的价格过高,并且基本上会退出实际应用中的竞争。有不同的需求。对于将来的发展,更多[2]。
SVM是双重模型。基本模型是找到线性分类器以最大化特征空间中的间隔。(最大化间隔是其独特性),并且通过此超平面实现未知样品集的分类。
意义:原始样品空间中可能没有正确分为两种类型的Ultra -Flat平面,但是我们知道,如果原始空间的尺寸有限,即属性的数量受到限制,那么必须有一个高维的高维度。特征空间可以将样品分开。SVM通过核功能将输入空间映射到高维生素符号空间,并最终构建了在高 - 高 - 高位平面的最佳分离 -尺寸特征空间,从而将无法在平面本身上线性分开的数据分开。核功能的真正意义是,它并没有真正映射到高维空间,但是它已经实现了映射映射计算数量减少。
选择:
使用专家的优先知识选择核心功能。例如,如果您已经知道问题是线性的,则可以使用线性核而无需选择非线性核。
如果特征的数量与样品数量一样大,则选择线性核函数SVM或LR。
如果特征的数量很少并且样品数量正常,则选择高斯核心函数SVM。
如果特征的数量很少,并且样品数量较大。因为在解决优化问题时,目标函数涉及两个样本计算内部积累。高斯核心的明显计算将大于线性核,因此手动添加某些特征以使线性得分。然后,您可以使用LR或线性核SVM;
使用交叉验证,尝试不同的核心功能,最小的误差是最佳的核函数。
混合核功能方法结合了不同的核心功能。
当训练数据线性划分时,可以正确分开两种类型的数据的无限分离。感知机或神经网络使用错误分类的最小策略来找到Ultra的分离 -平面,但目前的解决方案是无限的。基于线性的支撑矢量机利用间隔来最大程度地提高超级平面的最佳分离。目前,解决方案是唯一的。另一方面,目前,通过超平面分离而产生的分类结果是最强大的,而未知实例的概括能力是最强的。
增加和删除非支持矢量样品对模型没有影响;
支持矢量样品集具有一定的鲁棒性;
在某些成功的应用中,SVM方法对核的选择不敏感
太吵了
噪声以新分布的形式出现,这与原始样品集的噪声分布完全不同。这次,噪声还具有落在最大分类间隔中间的高概率,这已成为一个支持向量并极大地影响模型。
因此,我们经常说的鲁棒性实际上反映在异常值(异常点,出发点)。
此处提到的数据缺乏是指缺乏某些特征数据,并且向量数据不完整。SVM没有缺失值的策略(决策树)。SVM希望可以在特征空间中线性地分配样品。如果缺少值,则很难在此功能维度(例如SVM的大小)中进行分类,并且不当丢失值的损失数量将导致效果非常有效。),因此,特征空间对于SV的性能很重要。缺乏特征数据将影响培训结果的质量。
SVM的空间消耗主要是存储培训样品和核矩阵。由于SVM使用第二个计划来求解支持向量,因此解决第二个计划将涉及M step矩阵的计算(M的数量是样本数)。矩阵的存储和计算将消耗很多内存和计算时间。如果数据量很大,则SVM的训练时间相对较长,因此SVM在大数据的使用中受到限制。
过度合适的内容将不再解释。SVM实际上是具有其自己L2常规项目的分类器。SVM的主要技术防止过度拟合,是调整软间隔放松变量的惩罚因子C C,C表示越大,C显示了越大的c。您无法忍受错误,当它是无限时,将其退化为硬间隔分类器。适当的C大小可以通过离群值来照顾整体数据,而不是整个判断平面。通常可以获得交叉验证。与每个放松变量相对应的惩罚因子可能不同。
在正常情况下,低偏差,高差异差异,即在满足拟合时,C减少了C;
样品部分倾斜是指数指数中的正和负样品的数量。例如,有10,000个正样品,只有100个负样本。分布不宽),这会影响结果的准确性。
对于样品(样本不平衡)的情况,在各种机器学习方法中,我们有样本的常见治疗方法:样品,数据合成,加权等。
仅在SVM中,我们就可以通过为正和负样本设置不同的惩罚因素来解决样本偏差的问题。具体方法是为负类别设置更大的惩罚因素,因为负类最初较少,不能分为错误。惩罚因子的比率直接确定为1:100,并且必须通过实验确定特定值。
优势:
非线性映射是SVM方法的理论基础。SVM使用内部基础函数,而不是高维空间的非线性映射;
最佳的超纤维平面除以特征空间是SVM的目标,最大化边缘分类的想法是SVM方法的核心。
支持向量是SVM的训练结果。SVM分类决策中的决定性作用是支持向量。
SVM的最终决策功能由一些支持向量确定。计算的复杂性取决于支持向量的数量,而不是样本空间的维度,从某种意义上说,这避免了“维度灾难”。
对小样品集的分类效果通常更好。
少数支持向量确定了最终结果,这不仅可以帮助我们抓住密钥样本,还可以“删除”大量的冗余样本,而且还注定该方法不仅是简单的算法,而且还具有很好的“强大”“自然。这种“强大”自然主要反映在:
①添加和非支持矢量样品对模型没有影响。
②支持矢量样品集具有一定的鲁棒性;
③在某些成功的应用中,SVM方法对核的选择不敏感
SVM是一种具有稳固理论基础的新型小样本学习方法。基本上不涉及概率测量和大量法律,因此它与现有的统计方法不同。本质上,它避免了从归纳到解释到解释和解释的传统过程实现了从训练样本到预测样本的有效“过渡推断”,这大大简化了正常的分类和回归问题。
缺点:
SVM算法很难在大型训练样本上实现。由于SVM使用第二个计划来求解支持向量,因此计算M线矩阵(样本的数量)的解决方案涉及第二个计划。当M的数量是宽大的和计算时间时(上文提到)。
很难解决SVM的多重分类问题。传统SVM是解决双重分类的问题。有许多SVM技术可以解决多分类问题,但是各种方法在一定程度上是缺陷。
对缺失值敏感,核功能的选择更为复杂和复杂。
答案:使用ROC曲线。ROC曲线下的面积在0.1和1之间。AUC值是概率值。当您随机选择一个正样品和阴性样本时,当前的分类算法基于计算出的分数值,以将该阳性样品安排在负样本的前面。算法越有可能将正面样本排列在前面负样本。AUC可以直观地评估分类器的质量作为数值。值越大,随机情况越好,大约为0.5,因此通常良好的分类器AUC至少为0.5。
选择ROC和ROC较低曲线区域是因为分类问题经常遇到阳性和负样本不平衡问题。目前,准确性和召回率无法有效地评估分类器的性能,并且ROC曲线具有良好的特征:作为测试,当浓缩正和负样品的分布分布时,ROC曲线可以保持不变。
答案:较大的价值特征将覆盖小价值特征(内部积累计算)。高斯核之间的距离也会导致相同的问题引起相同的问题;多项式核会引起数值问题。与解决方案相对速度。数据标准化后,将丢失一些信息。预测,标准化后
答案:1)训练速度:线性核只需要调节惩罚因子的参数,因此速度很快;多项式核参数的数量很难调整;本质[交叉 - 吉申通常使用交叉验证,因此速度会很慢]
2)训练结果:线性核获得的重量W可以反映特征的重要性,从而进行特征选择;多项式核的结果更直观和解释。
3)适应性数据:线性核心:样品数量远小于功能数量(NM)[此时不需要映射到高尺寸],或者样品的数量和特征很大[在此时时间,主要考虑训练速度];径向基本核心:样品数量远大于特征数(NM)
答:如果选择σ非常大,则高级特性的重量实际上非常快。可以发现,当使用泰勒扩展时,当它很大时,泰勒高级项目的系数将迅速变小。
如果选择σ非常小,您可以将任何数据映射到线性中 - 当然,这不一定是一件好事,因为这可能是一个非常严重的过度拟合问题,因为Taylor在该公式中的有效项目中扩展了,将成为一个很多甚至是无限的,那么它等同于映射到无限的空间,任何数据都将线性分配。
相同的
首先,LR和SVM都是分类的算法。
其次,如果不考虑核功能,LR和SVM是线性分类算法,这意味着它们的分类决策是线性的。
第三,LR和SVM都是监督和学习算法。
第四,LR和SVM都是不同的模型。
第五,LR和SVM都有良好的数学理论支持。
不同的
首先,损失函数不同。
其次,支持向量机仅考虑局部边界线附近的点,逻辑回归考虑了整体情况(远离边界线的确定点的点也起着作用)。
第三,当解决非线性问题时,支持向量机将采用核功能机制,而LR通常不采用核功能的方法。当计算决策表面时,只有少数SVM算法的样本到参与支持向量样品的计算,也就是说,只有少数样品需要参与验证计算(即内核机器解决方案的系数很少)。必须参与决策表面的计算过程,也就是说,假设我们还使用LR中的核功能原理,那么每个样本点必须参与验证计算。这将带来。计算复杂性很高。因此,在特定的应用中,很少使用核功能机制。
第四,线性SVM的距离测量取决于数据表达,因此您需要首先进行归一化,LR不受IT的影响。一个计算概率,一个计算距离!
第五,SVM的损失函数是以自己的方式!交叉开采(1/2 || W ||^2中的1/2 || w ||^2),这就是为什么SVM是最小结构风险算法!交叉算法!交叉算法和LR必须将常规项目添加到损失功能!交点发出的最低结构风险意味着在训练错误和模型复杂性之间寻求平衡以防止过度拟合,以最大程度地减少实际错误。不实现最小化结构风险的目的,最常用的方法是最常用的方法是添加常规项目。SVM的目标函数实际上带有其自己的常规项目!上面提到的SVM目标函数的IntersectionStrectiontectionlook:
让我们看一下如何产生SO的陈词滥调。只有两个案例。一个是该样本的标签是错误的。一个没有错,但是这个样本是一个例子。
无论情况如何,SVM都会停止,而F将预测出来的预测,并且它将停止,并且不会为Out Out Out预测而进行优化,因为它没有太大的意义。lr不同。它将继续要求F优化对此液体的预测,并且永远不会停止。显然,这种优化可能会削弱F的概括性能,因为没有必要死亡。
答案是svm!交叉分解
SVM的全名是支持向量机,它支持向量机,该机器主要用于在模式识别领域解决数据分类问题。这是一种监督学习算法的类型。可以通过经典的双工问题描述SVM解决的问题。如图1所示,红色和蓝色的两个维王朝显然可以通过直线分离。在模式识别领域,它被称为线性划分问题。但是,显然有多个直线将两种类型的数据点分开。图2和3给定了两个不同的分类方案,包括A和B,包括A和B黑色真实的线是分界线,术语称为“决策表面”。每个决策表面具有线性分类器。尽管在当前数据中,但两个分类器的分类结果是相同的,但是如果考虑其他潜在数据,则两者的分类性能是不同的。
我在B处看到了一个很好的介绍!推荐的交叉点,这是门户
根据我自己的理解,以两个维数据为例。我们将已分类为良好分类的数据提供。双方的值分类为1或-1。通常,可以有一个最大间隔,可以在无数的解决方案中找到。因此,需要有限的条件才能找到最佳的线路。有限的方法是:无数解决方案形成一系列解决方案,而等于边缘的线是最佳解决方案。
有时,数据确实被分割了,也就是说,它可以通过线性分类SVM学习方法求解,但是由于它与异常点混合,因此不能线性分配。该线是由Ultra -Flat平面分离的。由于线性分类支持向量方法,因此可以将其分类为线性分类支持向量法。
上述讨论是在线讨论的,但是实际问题中给出的数据并非全部线性划分,例如某些数据可能是曲线。
因此,这个非线性得分不能用SVM算法解决吗?答案是负面的。实际上,不能将无法分为低维平面的数据可以分为高维空间。- 尺寸平面作为一个例子,我们可以通过找到映射将两个维平面点放入三维平面。理论数据样本可以找到合适的映射,以便这些样品不能在低维空间中分配的样品可以划分在高维空间后线性分割。
当有许多特征变量时,高维空间中内部积累的计算非常大。考虑到我们的目的不是找到这样的映射,而是要计算其在高维空间中的内部积累,因此,如果我们能找到在高维空间下,内部积累的公式,我们可以避免如此大量的计算。我们的问题是解决的。实际上,这是我们正在寻找的核心函数,即两个向量的内部积累在隐式映射后的空间中。
(1)清晰的分类问题具有明确的边界;
(2)高维分类的效果很好;
(3)当尺寸高于样品数量时,SVM更有效;
(4)由于仅使用训练浓度的支持向量,因此保存内存
(1)当数据量较大时,培训时间将更长;
(2)当数据集的噪音太多时,性能不好;
(3)SVM不直接提供结果的概率。计算时,它使用5倍的交叉验证。
(1)LR和SVM均分类算法;
(2)LR和SVM都是监督和学习算法;
(3)LR和SVM都是不同的模型;
(4)关于详细的概念以及对歧视模型和生成模型的理解,作者将在下一篇博客文章中介绍,这在此处尚未详细介绍。
(5)如果不考虑核函数,LR和SVM都是线性分类算法,这意味着它们的分类决策是线性线性的
样品点必须参与核计算,这很高。因此,在特定的应用中,LR很少使用核功能机制。
(1)不同的损失功能;
(2)SVM仅考虑支持向量,而LR则考虑整体情况(即远离边界线的确定点也起着作用);
(3)当解决非线性问题时,SVM使用核功能机制,而LR通常不使用核功能方法;
(4)SVM的损失函数具有其自身的规律性(损失函数中的12 || W || 2)。这就是为什么SVM是最小结构风险算法的原因,LR必须在损失功能中添加常规项目。
(5)LR是参数模型。SVM是一种非参数模型,本质上是不同的。
(6)SVM更适用于培训集,而LR需要更多样本。
(1)LR和线性回归是宽线性回归;
(2)线性回归模型的优化目标函数是最小的两个多层性,而LR是相似的函数;
(3)线性返回到整个实体域范围进行预测。灵敏度是一致的,分类的范围需要为[0,1]。遗传回归是一个减少的预测范围,将预测值限制为[0,1]之间的回归模型。因此,对于此类问题,逻辑回归的鲁棒性比线性回归更好。
(4)逻辑回归的模型本质上是线性回归模型。逻辑回归基于线性回归作为理论支持。但是线性回归模型无法实现Sigmoid的非线性形式。Sigmoid可以轻松地处理0/1分类问题。
(5)线性回归主要是预测的,LR主要分类(例如两个类别);
1.核支持向量机是一个非常强大的模型,各种数据集的性能非常好。SVM允许制定界限变得复杂,即使只有少数特征。它在低维数据中表现良好和高维数据(即几乎没有功能和许多功能),但是在样本的数量上表现不佳。在数据上运行最多10,000个样本的SVM可能会表现良好,但是如果数据量达到100,000甚至更大,它可能在操作时间和内存使用方面面临挑战。
SVM的另一个缺点是,预处理数据和调整需要非常小心。这就是为什么许多应用程序基于基于树的模型,例如随机森林和梯度改进(几乎不需要预处理,甚至不需要需要。要检查,可能很难理解为什么它如此预测,并且很难向非专家解释该模型。
但是,SVM仍然值得尝试,尤其是所有功能的测量单元(例如像素密度),并且范围几乎相同。
核SVM的重要参数是常规参数C,与核有关的核选择和参数。尽管我们谈论的是RBF核心,但Scikit-Learn中还有其他选择。RBF核仅具有一个参数伽玛,即高斯核宽带的倒计时。gamma和c控制既是模型的复杂性,较大的值对应于更复杂的模型。应同时调整。
结论:以上是首席CTO注释为每个人编制的SVM处理的最大数据的总内容。感谢您阅读本网站的内容。我希望这对您有帮助。有关SVM Processingdo的最大数据的更多信息,不要忘记在此站点上找到它。