当前位置：首页 > 网络应用技术

决策树类别（决策者分类器）

时间：2023-03-05 23:09:06 网络应用技术

　　作为一种非参数监督方法，决策树可以总结一系列特征和标签数据制定规则，并以树图的结构呈现，解决分类和回归问题，并应用应用程序。适用于各种数据；

　　对于节点root节点：没有边缘，有边缘；

　　中间节点：既有进步又有边缘，边缘只有一个，边缘可能有很多。

　　叶节点：有一个侧面，没有边缘，每个叶节点都有一个类别标签；

　　sub节点和父节点：在两个连接的节点中，父节点更接近root节点，另一个是子节点。

　　制定树算法的核心是解决两个关键问题：如何从数据表中找到最佳节点和最佳分支（您想问的是哪个功能来问问决策树停止生长并防止过度拟合？（有很多特征，您不再问要问多少）

　　对于此过程，与类别树相对应的代码为：

　　决策树需要找到最好的节点和最好的分支机构方法。对于分类树，“最佳”的“最佳”索引称为“不纯净”。从总体上讲，纯度越低，决策树越好，则越来越拟合训练集。基于节点，杂质将在树上有一个脉冲，并且子节点的弹药必须低于父节点，也就最低。标准确定杂质的计算方法。

　　Sklearn中的两个选项；

　　其中，t代表一个给定的节点，我表示标签的任何分类，p（i | t）表示标签I类别I上的标签比例，请注意，使用信息时，Sklearn实际上根据信息计算信息增益 -基于信息的信息，即父节点信息的信息与子节点的信息之间的差异。在实际使用中，信息熵的效果和天才系数的效果相同。信息的计算信息计算熵比Igini系数慢，因为Gini系数的计算不涉及该数字，并且通常可以两者都尝试

　　2.3.1功能的重要性

　　如果没有限制，决策树将成长为杂质的最佳指标，或者没有更多的功能。制造树木经常过度贴合，即在训练集中表现良好，但在测试集中表现出色。收集的样本数据不能与整体情况完全相同。因此，当决策树对培训数据有很好的解释时，它必须包括训练样本中的噪声，从而导致未知数据的拟合程度不够削减决定树

　　将树的最大深度切断所有设置深度的分支。当较高的低样品量为时，它非常有效。建议从= 3尝试一下，以查看是否决定增加设定深度。

　　2.6.1 class_weight＆min_weight_fraction_leaf样本不平衡指的是一组数据浓度，一种固有标签的类型，使用class_weight参数来使示例标签的一定平衡该模型更偏向于模型。几个类别正在朝着几个类别的方向建模。此参数默认没有。此模式表明所有自动给出数据浓度的标签都具有相同的权重。重量后，样本体积不再简单地记录数字，而是影响输入的重量。因此，需要与MIN_ stoge_fraction_leaf（加权修剪参数）一起使用。

　　属性是模型训练后可以调用的模型的性质。对于制定树，最重要的是feature_importances_，它可以查看每个功能对模型的重要性。此外，应用决策树的最常见界面是应用和预测的。输入测试集以返回每个测试样品所在的叶子节点的索引，预测输入测试集返回每个测试样本的标签，

　　有了这些知识，基本上可以掌握分类树的使用。然后去榜样磨练它！

上一篇：如何区分django（django主键）

下一篇：Uni-App：iPhone的底部安全区域

决策树类别（决策者分类器）相关文章