漫画解读:通俗易懂的机器学习十大常用算法,它们是如何应用的,例子主要是分类问题。机器学习常用的十种算法如下:决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值算法Adaboost算法神经网络马尔可夫决策树决策树根据一些特征进行分类,每个节点提出一个问题,通过判断,将数据分为两类,然后继续提问。这些问题是在已有数据的基础上学习的,当输入新的数据时,可以根据树上的问题将数据划分到合适的叶子上。随机森林从源数据中随机选取数据,组成若干个子集,如下图:S矩阵为源数据,有1-N条数据,ABC为特征,最后一列C为类别。从S中随机生成M个子矩阵。这M个子集产生M个决策树。将新的数据放入这M棵树中,得到M个分类结果,统计看哪一类的预测数最多,将这一类作为最终的预测结果。对于逻辑回归,当预测目标是概率时,取值范围需要大于等于0小于等于1。这时候简单的线性模型做不到,因为当定义域为不在一定范围内,取值范围也超出规定范围。所以这个时候最好需要这样一个形状模型。那么如何得到这样的模型呢?这个模型需要满足两个条件:大于等于0。小于等于1。大于等于0的模型可以选择绝对值和平方值。这里用指数函数,必须大于0,小于等于1,用除法。分子是自己,分母是自己加1,结果一定小于1,再变形一次,得到逻辑回归模型。通过计算源数据可以得到相应的系数。最后得到逻辑图。SVMSVM是支持向量机。需要将这两种类型分开,得到一个超平面。最优超平面就是最大化这两种类型的边距,边距就是超平面和离它最近的点的距离。如下图,Z2>Z1,所以绿色超平面比较好。将这个超平面表示为一个线性方程,直线上方一类大于等于1,另一类小于等于-1。根据图中的公式计算点到面的距离。所以总保证金的表达式如下。目标是最大化margin,需要最小化分母,所以就变成了一个优化问题。比如三个点,要找到最优超平面,定义权重向量=(2,3)-(1,1)。得到权重向量为(a,2a),将两点代入方程,代入(2,3)使其值=1,代入(1,1)使其值=-1,求解a和截取w0值,得到超平面的表达式。找到a后代入(a,2a)得到支持向量。将a和w0代入超平面的方程就是支持向量机。朴素贝叶斯给出了在NLP中应用的一个例子。给一段文字,返回情感分类。这篇文章的态度是积极的还是消极的?要解决这个问题,只需看一些单词。这段文字,只会由一些词和它们的计数来表示。最初的问题是:给定一个句子,它属于哪一类?通过贝叶斯规则,就变成了一个比较简单易解的问题。问题就变成了,这个句子出现在这个类别中的概率是多少,当然不要忘了公式中的另外两个概率。示例:love这个词在正面的情况下出现的概率为0.1,在负面的情况下出现的概率为0.001。K近邻K近邻是k近邻。当给定一个新的数据时,在离它最近的k个点中,哪个类别多,则该数据属于哪个类别。例子:区分猫和狗,如果用爪子和声音这两个特征来判断,圆形和三角形是已知的分类,那么这个星星代表哪一类?当k=3时,这三条线连接的点就是最近的三个点,圆圈比较多,所以这个星是猫的。K-means想把一组数据分成三类。粉色值大,黄色值小。首先对其进行初始化。这里选择最简单的3、2、1作为各类型的初始值。剩下的数据中,三个初始值分别计算距离,然后归类到离它最近的初始值的类别中。分类后,计算每一类的平均值作为新一轮的中心点。几轮之后,分组不再变化,就可以停止了。Adaboostadaboost是boosting的方法之一。Bosting就是把几个分类效果不好的分类器组合起来得到一个更好的分类器。如下图,左右两棵决策树单独来看效果不是很好,但是将相同的数据放入其中,将两个结果相加会增加可信度。在adaboost的栗子中,在手写识别中,可以在画板上捕捉到很多特征,比如起点的方向,起点和终点的距离等等。在训练过程中,将获得每个特征的权重。比如2和3的开头很相似。这个特征对分类影响不大,权重会小一些。而且这个alpha角是非常有辨识度的,这个特征的权重会比较大,最终的预测结果是这些特征综合考虑的结果。神经网络神经网络适用于可能属于至少两类的输入。NN由几层神经元和它们之间的连接组成。第一层是输入层,最后一层是输出层。隐藏层和输出层都有自己的分类器。输入被输入到网络中并被激活,计算出的分数被传递给下一层激活后续的神经层。最后,输出层节点上的分数代表属于每个类别的分数。下图的例子得到的分类结果为class1,同样的输入传递到不同的节点,得到不同结果的原因是各个节点的权值和偏置不同。这也是前向传播。马尔可夫链由状态和转移组成。例如,基于句子“thequickbrownfoxjumpsoverthelazydog”。如果要得到一个马尔可夫链,步骤就是先将每个词设置为一个状态,然后计算状态之间转移的概率。这是一个句子计算出来的概率。当你使用大量的文本进行统计时,你会得到一个更大的状态转移矩阵,比如可以在the之后连接的单词和对应的概率。生活中,键盘输入法的替代结果也是同样的原理,模型会更高级。【编者推荐】安防对人工智能的需求——从机器学习到机器创造如何对机器学习代码进行单元测试?机器学习的光明未来将何去何从?这里有5个关于它的未来预测人工智能这么火,你能分清机器学习和深度学习的区别吗?内测中!带有机器学习功能的Word、Excel和Outlook即将推出
