以下是从参与评选的18个候选算法中最终选出的十大经典算法:1.C4.5C4.5是机器学习算法的分类决策树algorithm,是决策树核心算法ID3的改进算法(决策树是决策节点像树一样的组织,但实际上是倒置树),所以基本了解决策树构造方法的一半就可以了构建它。决策树构造方法实际上就是每次选择一个好的特征和分裂点作为当前节点的分类条件。与ID3相比,C4.5有以下改进:1、使用信息增益率来选择属性。ID3使用子树的信息增益来选择属性。这里有很多方法来定义信息。ID3使用熵(熵是杂质的量度),即熵的变化值。而C4.5使用的是信息增益率。是的,区别就是一个是信息增益,一个是信息增益率。一般来说,比率是用来平衡的,就像方差起着类似的作用。例如,有两个跑步者,一个以10m/s开始,10s后为20m/s;另一个以10m/s的速度开始。是1m/s,1s后是2m/s。如果你仔细计算差异,两者之间的差异是非常大的。如果用速度增加率(加速度,即都是1m/s^2)来衡量,两个人的加速度是一样的。因此,C4.5克服了ID3在使用信息增益选择属性时偏向于选择取值多的属性的不足。2.修剪是在造树过程中进行的。在构建决策树时,那些挂着几个元素的节点不认为是最好的,否则容易导致过拟合。3.还可以处理非离散数据。4.能够处理不完整的数据。2.k-means算法就是K-Means算法。k-means算法是一种聚类算法,将n个对象根据其属性(k
