本文转载自公众号《核心阅读》(ID:AI_Discovery)。决策树是机器学习中使用的最流行和最强大的分类算法之一。顾名思义,决策树用于根据给定的数据集做出决策。也就是说,它有助于选择适当的特征将树划分为类似于人类思维线程的子部分。为了有效地构建决策树,我们使用了熵/信息增益和基尼杂质的概念。让我们看看什么是基尼杂质以及如何使用它来构建决策树。什么是基尼杂质?GiniImpurity是决策树算法中使用的方法,用于确定根节点的最佳拆分和后续拆分。这是拆分决策树的最流行和最简单的方法。它只适用于分类目标,因为它只执行二进制拆分。基尼不纯度的公式如下:基尼不纯度越低,节点的同质性越高。纯节点(同一类)的基尼杂质为零。以一个数据集为例,计算基尼杂质。该数据集包含18名学生,8名男孩和10名女孩。它们根据性能分类如下:上述基尼杂质计算如下:在上述计算中,为了找到分裂(根节点)的加权基尼杂质,我们使用子节点中学生的概率。对于“高于平均水平”和“低于平均水平”的节点,这个概率仅为9/18,因为两个子节点的学生数量相等,即使每个节点中男孩和女孩的数量基于他们的行为不同,并且结果也是如此。以下是使用Gini杂质拆分决策树的步骤:类似于熵/信息增益。对于每次拆分,分别计算每个子节点的基尼杂质。计算每个分裂的基尼杂质作为子节点的加权平均基尼杂质。选择具有最低基尼杂质值的拆分。重复步骤1-3,直到获得相同类型的节点。Giniimpurity总结:有助于找到根节点、中间节点和叶节点以开发决策树。由CART(分类和回归树)算法用于分类树。当节点中的所有事例都属于目标时,达到最小值(零)。总之,Gini不纯度优于熵/信息增益,因为它易于公式化并且不使用计算量大且困难的对数。
