当前位置: 首页 > 科技观察

轻松看懂机器学习的十大常用算法_0

时间:2023-03-22 11:13:55 科技观察

通过本文,你可以对机器学习的常用算法有一个常识性的认识。没有代码,没有复杂的理论推导,一张图就知道这些算法是什么。它们是Howtoapplyit,例子主要是分类问题。每个算法我看了几个视频,挑出最清晰有趣的,方便科普。以后有时间再深入分析一个算法。今天的算法如下:决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值算法Adaboost算法神经网络马尔可夫1.决策树根据一些特征进行分类,每个节点提出一个问题,并通过判断,将数据分为两类,然后继续提问。这些问题是在已有数据的基础上学习的,当输入新的数据时,可以根据树上的问题将数据划分到合适的叶子上。2.RandomForest从源数据中随机选择数据,形成若干个子集。S矩阵是源数据,有1-N条数据,ABC是特征,最后一列C是类别。S随机生成M个子矩阵,得到这M个子集。M棵决策树将新的数据放入这M棵树中,得到M个分类结果。统计看哪个类别的预测次数最多,将这个类别作为最终的预测结果。3.Logistic回归当预测目标是概率时,这样取值范围需要大于等于0小于等于1,这时候简单的线性模型做不到,因为当域定义不在一定范围内,取值范围也超出规定范围。那么这个时候需要这样的模型就更好了,那么如何得到这样的模型呢?该模型需要满足大于等于0、小于等于1和大于等于0两个条件,模型可以选择绝对值和平方值。这里用到了指数函数,必须大于0小于等于1。除法,分子是自己,分母是自己。1、必须小于1再变形得到逻辑回归模型。通过对源数据的计算可以得到相应的系数,最终得到逻辑图。4.SVM支持向量机需要将两种类型分开,想要得到一个Hyperplane,最优超平面就是达到两种类型的最大margin,margin是超平面到最近点的距离,如图下图,Z2>Z1,所以绿色的超平面最好将这个超平面表示为一个线性方程组,直线上方的一类大于等于1,另一类小于等于-1。点到面的距离是根据图中的公式计算出来的,所以totalmargin的表达式如下。目标是最大化这个margin,就需要最小化分母,所以就变成了一个优化问题。比如三个点,求最优超平面,定义权重向量=(2,3)-(1,1)得到权重向量为(a,2a),将两个点代入方程,代入(2,3)及其取值=1,代入(1,1)及其取值=-1,求解a取截距w0,即可得到超平面Mode的表达式。求出a后代入(a,2a)得到支持向量a和w0带入超平面的方程即为支持向量机5。朴素贝叶斯在NLP中对一段文本给出一个应用,并返回情感分类。这篇文章的正文是态度积极的还是消极的要解决这个问题,你可以只看这篇文章中的一些词,它只会用一些词及其计数来表示。原问题是:给定一个句子,它属于哪一类?成为一道比较简单易得的题。问题就变成了,这句话出现在这个类别中的概率是多少?当然,别忘了公式中的另外两个概率栗子:love这个词在positive的情况下出现的概率是0.1,negative的情况下出现的概率是0.0016。当K个近邻k个近邻给出一个新数据时,在离它最近的k个点中,哪个类别多,这个数据属于哪一类栗子:为了区分猫狗,如果通过爪子和声音两个特征来判断,圆形和三角形已知是可以分类的,那么这个星星代表的是哪一类呢?当k=3时,这三条线连接的点最近的三个点比较圆,所以这颗星属于Cat7。K-Means想把一组数据分成三类,粉色值大,黄色值很小。先初始化最开心。简单的3、2、1作为各种类型的初始值。在剩下的数据中,各自计算与三个初始值的距离,然后将其归入离它最接近的初始值的类别中。分类后,计算每个类的平均值,作为新一轮的中心点。几轮过后,分组不再变化,就可以停止了。8.Adaboostadaboost是boosting的方法之一。考虑一下,你会得到一个更好的分类器。下图中,左右两棵决策树。单独来看效果不是很好,但是把同样的数据放进去,把两个结果加起来会增加adaboost栗子的可信度。网上可以抓到很多特征,比如起点的方向,起点到终点的距离等等,训练的时候会得到每个特征的权重。比如2和3的开头很相似。这个特征起到分类作用如果很小,它的权重就小,这个alpha角识别性强,这个特征的权重就大,最后的预测结果是这些特征综合考虑的结果9.神经网络适用于一个输入可能至少分为两类。NN由几层神经元以及它们之间的连接组成。第一层是输入层,最后一层是输出层。隐藏层和输出层都有自己的分类器输入到网络中,被激活,计算出的分数传递给下一层,激活后续的神经层,最终输出层的节点上的分数代表分数属于每个类别。下图的例子表明分类结果是class1,同样的输入是Transfertodifferentnodes,之所以会得到不同的结果是因为每个节点的weights和bias不同,这就是forwardpropagation10。马尔可夫链由状态和转换组成。根据这句话'thequickpownFoxjumpsoverthelazydog',要得到马尔可夫链步,首先将每个词设置为一个状态,然后计算状态之间转移的概率。这是一个句子计算出来的概率。当你使用大量的文本进行统计时,有时候,你会得到一个更大的状态转移矩阵,比如the之后可以连接的单词,以及对应的概率。生活中,键盘输入法的替代结果也是同样的原理,模型会更高级。010)68476606]