当前位置: 首页 > 科技观察

分类算法总结

时间:2023-03-22 14:56:55 科技观察

决策树分类算法决策树归纳是一种经典的分类算法。它使用自上而下的递归分解方法来构建决策树。在树的每个节点,信息增益度量用于选择测试属性。可以从生成的决策树中提取规则。KNN法(K-NearestNeighbor):KNN法即K近邻法,由Cover和Hart于1968年首先提出,是理论上比较成熟的方法。这种方法的思想非常简单直观:如果一个样本在特征空间(即特征空间中的最近邻)中的k个最相似样本中的大部分都属于某一类,那么该样本也属于这一类。在分类决策中,该方法只是根据距离最近的一个或几个样本的类别来确定待划分样本的类别。虽然KNN方法在原理上也依赖于极限定理,但在进行类别决策时,它只与极少数相邻样本有关。因此,使用这种方法可以更好地避免样本不平衡的问题。另外,由于KNN方法主要依靠周围有限的样本而不是判别类域的方法来确定其所属的类别,因此对于待划分的样本集,当有类域的更多交叉或重叠。方法比较合适。这种方法的缺点是计算量大,因为对于每一个待分类的文本,都必须计算到所有已知样本的距离,得到它的K个最近邻。目前常用的方案是提前编辑已知样本点,提前去除对分类影响不大的样本。此外,还有一种ReverseKNN方法,可以降低KNN算法的计算复杂度,提高分类效率。该算法更适用于样本量较大的类域的自动分类,而样本量较小的类域在使用该算法时更容易出现误分类。SVM方法:SVM方法即支持向量机(SupportVectorMachine)方法,由Vapnik等人提出。1995年,具有较好的业绩指标。该方法是一种基于统计学习理论的机器学习方法。通过学习算法,支持向量机可以自动找出那些对分类具有较好判别能力的支持向量,由此构建的分类器可以最大化类间间隔,因此具有更好的适应性和更高的分类精度。标记率。该方法只需要根据各个域的边界样本的类别来确定最佳分类结果。支持向量机算法的目的是找到一个超平面H(d),该超平面可以分离训练集中的数据,垂直于超平面方向的类域边界边缘的距离为***,所以SVM方法也称为最大间隔(maximummargin)算法。待划分样本集中的大部分样本都不是支持向量。移除或减少这些样本对分类结果没有影响。SVM方法在小样本情况下进行自动分类有较好的分类效果。VSM方法:VSM方法是向量空间模型(VectorSpaceModel)方法,由Salton等人提出。在1960年代后期。这是最早也是最著名的信息检索数学模型。基本思想是将文档表示为一个加权的特征向量:D=D(T1,W1;T2,W2;...;Tn,Wn),然后通过计算文本来确定待划分样本的类别相似。当文本表示为空间向量模型时,文本的相似度可以用特征向量之间的内积来表示。在实际应用中,VSM方法一般是根据语料库中的训练样本和分类系统,预先建立一个类别向量空间。当需要对待划分样本进行分类时,只需计算待划分样本与各个类别向量的相似度,即内积,然后选择相似度最高的类别作为类别对应于要划分的样本。因为在VSM方法中需要预先计算出类别的空间向量,而空间向量的建立很大程度上依赖于类别向量所包含的特征项。根据研究发现,一个类别中包含的非零特征项越多,该类别中包含的每个特征项的表达能力就越弱。因此,VSM方法比其他分类方法更适用于专业文献的分类。贝叶斯方法:贝叶斯方法是在已知先验概率和类别条件概率的情况下的一种模式分类方法。待划分样本的分类结果取决于各域样本的总和。假设训练样本集分为M个类别,记为C={c1,...,ci,...cM},每个类别的先验概率为P(ci),i=1,2,...,M。当样本集很大时,可以认为P(ci)=类别ci的样本数/样本总数。对于一个待划分的样本X,其所属类别属于类别cj的条件概率为P(X|ci),则根据贝叶斯定理,可以得到类别cj的后验概率P(ci|X):P(ci|x)=P(x|ci)·P(ci)/P(x)(1)如果P(ci|X)=Ma**(cj|X),i=1,2,...,M,j=1,2,...,M,则有x∈ci(2)式(2)为***后验概率的决策准则,将式(1)代入式(2)),那么我们有:如果P(x|ci)P(ci)=Maxj[P(x|cj)P(cj)],i=1,2,...,M,j=1,2,...,M,thenx∈ci这就是常用的贝叶斯分类判断准则。经过长期的研究,贝叶斯分类方法在理论上得到了充分论证,在应用上也非常广泛。贝叶斯方法的薄弱环节是在实际情况下,类别总体的概率分布和各种样本的概率分布函数(或密度函数)往往是未知的。为了获得它们,需要足够大的样本。此外,贝叶斯方法要求表达文本的主题词相互独立,这在实际文本中一般难以满足,因此该方法在效果上往往难以达到理论最大值。神经网络:神经网络分类算法的重点是构建阈值逻辑单元。值逻辑单元是可以输入一组加权系数并将它们求和的对象。如果总和达到或超过某个阈值,则输出一个数量。如果有输入值X1,X2,…,Xn及其权重系数:W1,W2,…,Wn,求和计算出的Xi*Wi产生一个激励层a=(X1*W1)+(X2*W2)+…+(Xi*Wi)+…+(Xn*Wn),其中Xi为每条记录或其他参数的出现频率,Wi为实时特征评价模型中得到的权重系数。神经网络是一种基于经验风险最小化原理的学习算法。它存在一些先天缺陷,如层数和神经元个数难以确定,容易陷入局部极小,存在过度学习现象。这些固有的缺陷都存在于SVM算法中。可以很好的解决。