作为一种非参数监督方法,决策树可以总结一系列特征和标签数据制定规则,并以树图的结构呈现,解决分类和回归问题,并应用应用程序。适用于各种数据;
对于节点root节点:没有边缘,有边缘;
中间节点:既有进步又有边缘,边缘只有一个,边缘可能有很多。
叶节点:有一个侧面,没有边缘,每个叶节点都有一个类别标签;
sub节点和父节点:在两个连接的节点中,父节点更接近root节点,另一个是子节点。
制定树算法的核心是解决两个关键问题:如何从数据表中找到最佳节点和最佳分支(您想问的是哪个功能来问问决策树停止生长并防止过度拟合?(有很多特征,您不再问要问多少)
对于此过程,与类别树相对应的代码为:
决策树需要找到最好的节点和最好的分支机构方法。对于分类树,“最佳”的“最佳”索引称为“不纯净”。从总体上讲,纯度越低,决策树越好,则越来越拟合训练集。基于节点,杂质将在树上有一个脉冲,并且子节点的弹药必须低于父节点,也就最低。标准确定杂质的计算方法。
Sklearn中的两个选项;
其中,t代表一个给定的节点,我表示标签的任何分类,p(i | t)表示标签I类别I上的标签比例,请注意,使用信息时,Sklearn实际上根据信息计算信息增益 -基于信息的信息,即父节点信息的信息与子节点的信息之间的差异。在实际使用中,信息熵的效果和天才系数的效果相同。信息的计算信息计算熵比Igini系数慢,因为Gini系数的计算不涉及该数字,并且通常可以两者都尝试
2.3.1功能的重要性
如果没有限制,决策树将成长为杂质的最佳指标,或者没有更多的功能。制造树木经常过度贴合,即在训练集中表现良好,但在测试集中表现出色。收集的样本数据不能与整体情况完全相同。因此,当决策树对培训数据有很好的解释时,它必须包括训练样本中的噪声,从而导致未知数据的拟合程度不够削减决定树
将树的最大深度切断所有设置深度的分支。当较高的低样品量为时,它非常有效。建议从= 3尝试一下,以查看是否决定增加设定深度。
2.6.1 class_weight&min_weight_fraction_leaf样本不平衡指的是一组数据浓度,一种固有标签的类型,使用class_weight参数来使示例标签的一定平衡该模型更偏向于模型。几个类别正在朝着几个类别的方向建模。此参数默认没有。此模式表明所有自动给出数据浓度的标签都具有相同的权重。重量后,样本体积不再简单地记录数字,而是影响输入的重量。因此,需要与MIN_ stoge_fraction_leaf(加权修剪参数)一起使用。
属性是模型训练后可以调用的模型的性质。对于制定树,最重要的是feature_importances_,它可以查看每个功能对模型的重要性。此外,应用决策树的最常见界面是应用和预测的。输入测试集以返回每个测试样品所在的叶子节点的索引,预测输入测试集返回每个测试样本的标签,
有了这些知识,基本上可以掌握分类树的使用。然后去榜样磨练它!