当前位置: 首页 > 网络应用技术

如何对人工智能随机森林进行分类?

时间:2023-03-07 01:26:36 网络应用技术

  简介:许多朋友询问有关人工智能随机森林如何分类的问题。本文的首席CTO笔记开始为您的参考做出详细的答案。我希望这对每个人都会有所帮助!让我们一起看看!

  随机森林是一种综合分类器,可分析影响随机森林表现的参数。结果表明,随机森林中的树木数对于影响随机森林的性能至关重要。研究并总结了树木的数量和随机森林绩效指标的评估方法。将分类精度作为评估方法,UCI数据集用于实验随机森林中决策树数量与数据集之间的关系。实验结果表明,对于数据集的数量,当树木数量为100时,类别精度可用于准确的准确性。准确性的条款,实验结果表明,随机森林的分类性能与支持向量机可以媲美。

  随机森林是指使用多棵树来训练和预测样品的分类器。分类器首先由Leo Breiman和Adele Cutler提出,并注册为商标。

  在机器学习中,随机森林是一个包含多个决策树的分类器,其输出类别由单个树的类别数量决定。LeoBreiman和Adele Cutler开发了指定随机森林的算法。“随机森林”。“随机森林”。是他们的商标。

  该术语来自1995年贝尔实验室在锡kam Ho中提出的随机决策森林。

  这种方法是将Breimans的“ Bootstrap汇总” Idea和HO的“随机子空间方法”结合在一起,以构建决策树的集合。

  学习算法

  每棵树都是根据以下算法构建的:

  1.使用n指示训练案例的数量(样本),M表示特征的数量。

  2.输入特征数M的数量,以确定决策树上的节点的决策结果;M远远远远远远。

  3.从n个训练案例(样品)中,有一种方法可以放回抽样,样品n次以形成训练集(即,引导抽样),并预测无法解释的情况(样品)来评估其错误。

  4.对于每个节点,根据这些特征确定决策树上的M节点的特征。基于此M功能,计算其分裂的最佳方法。

  5.每棵树将完全生长而不修剪,这可能会在建立普通树形的分类器之后被采用)。

  上次我编写了决策树算法。决策树可以解决分类问题。还有一些可以解决回归问题的推车算法。随机森林也与决策树非常相似。它也可以解决回归问题。从这个名称可以看出,随机森林是以随机方式建造的森林,并且该森林由许多非相关的森林组成决策树。真实的 - 时间随机森林本质上是机器学习的一个非常重要的分支,称为集成学习。集成学习通过建立多种模型组合来解决一个单一的预测问题。它的工作原理是生成多个分类器/模型,每个研究和预测和预测这些预测最终合并为单个预测,因此进行预测比任何单个类别都要好。

  因此,从理论上讲,随机森林的表现通常比单个决策树更好,因为随机森林的结果是投票给多个决策树的结果来确定最终结果。有自己的结果。随机森林的结果是计算每个决策树的结果和投票最多的结果。我认为中国的谚语表达了随机森林的操作模型,这是“三个臭味的Skirs,Top Zhuge Liang”。

  我有一批通过颜色,长度,甜度,生长地点和水果类别的100块数据,然后我想预测哪种水果是什么颜色,长度,甜味和生长地点。

  这里的采样是指在这批水果中的地面采样。例如,我想生成3个决策树以预测水果的类型。要将其放回原处,下一个树提取数据仍然需要从100个数据中提取。此方法称为Bootstrap重型采样技术。

  每棵树使用提取的样品生成一棵树。值得注意的是,由于使用了购物车算法,生成了二进制树,并且可以处理连续数据。如果每个样品的特征维度为m,则如上所述的数据,如上所述,样本特征尺寸5,指定常数MM,从5个功能中随机选择M特征集(这非常重要,这也是随机名称的随机森林,因此可以确保生成的决策树不同)。当每棵树被划分时,从此M功能中选择了最好的一棵,并且每个决策树可能会生长到最大值。

  此时,生成了一个郁郁葱葱的决策树。

  根据三个决策树的结果,如果最终需要连续数据获得结果,如果是数据的分类,则最终找到了数据数。

  1)如上所述,随机森林算法可以解决分类和回归的问题,并且在这两个方面都具有良好的估计表现

  2)高维数据集的随机森林的处理能力令人兴奋。它可以处理数千个输入变量并确定最重要的变量,因此被认为是一个良好的尺寸缩小方法。此外,此模型可以输出变量的重要性,这是一个非常方便的功能

  3)随机森林是估计丢失数据的非常有效的方法。即使有大量数据,随机森林可以更好地保持准确性

  4)当分类不平衡时,有效的随机森林方法可能会提供平衡的数据集错误

  5)模型的上述性能可以扩展到未签名的数据集中,以指导无监督的聚类,数据透视和异常检测

  6)随机森林算法包含输入数据的重复自我采样过程,SO称为“ Bootstrap采样”。这样,大约三分之一的数据浓度将不用于模型训练,而是用于测试。从包样品中调用此类数据。这些样品估计的错误被称为出袋错误。研究表明,袋装方法的准确性与测试集大小与训练集一致的准确性相同。因此,在随机森林中,我们不需要为测试集设置其他其他设置。

  1)在解决回归问题时,随机森林在分类中的表现不佳,因为它不会产生连续的产出。返回时,随机森林无法对数据范围的预测进行预测,这可能会导致过度当他们用特定噪声建模数据时。

  2)对于许多统计建模者,随机森林感觉就像是黑匣子 - 您几乎无法控制模型内部的操作,并且您只能在不同的参数和随机种子之间尝试。

  来自他人的excerp

  随机森林中有一个错误发现。另一个是一棵树,它更多地是关于该工具可以帮助您解决的问题。

  您如何处理这个工具,而不是其他

  随机森林原则

  1.什么是随机森林?

  随机的森林将以随机的方式建造森林。森林中有许多决策树,每个决策树之间都没有联系。当有一个新样本时,我们让森林法官中的每个决策树分别查看该样本属于哪个类别,然后使用投票,哪种类型的选择,用作最终分类结果。在回归问题中,所有决策树的平均值输出随机森林输出。

  (1)随机森林可用于分类或返回。

  (2)这是减少尺寸的一种手段,用于处理缺失的值和异常值。

  (3)这是整合学习的重要方法。

  2.两个随机提取

  (1)将样品放回并随机提取固定数字

  (2)构建决策树时,特征是随机提取的

  说明:两个随机介绍对于随机森林的分类性能至关重要。介绍其引入,随机森林不容易陷入胜利,并且对噪声具有良好的抵抗力(例如:对默认值不敏感)

  3.随机森林算法如何工作?

  在随机森林中,每个决策树的“种植”和“生长”的四个步骤:

  (1)假设我们将训练浓度的样品数量设置为N,然后通过重复重复样品来获得该N样品。这样的抽样结果将用作我们生成决策树的培训集。

  (2)如果有一个输入变量,每个节点将被随机选择m(mm)一个特定变量,然后将使用此m变量来确定最佳分分点。在决策树的过程中,m保持不变;

  (3)每条决策树可能不修剪而生长;

  (4)通过添加所有决策树来预测新数据(使用分类中的大多数投票以及返回时的平均值)。

  4.随机森林的优势和缺点

  优势:

  (1)分类和回归方面的良好表现

  (2)处理高维数据的能力很强,并且可以处理数千个输入变量。这是减少维度的一个很好的方法

  (3)能够输出功能的重要性

  (4)有效处理默认值

  5.重要参数

  随机森林分类效应(错误率)与两个因素有关:

  (1)森林中任何两棵树的相关性:相关性越大,错误率越大;

  (2)每棵树在森林中的分类能力:每棵树的分类能力越强,整个森林的错误率就越低。

  减少功能选择。树的相关性和分类能力也将相应降低;增加m,两者也会增加。因此,关键问题是如何选择最佳M(或范围),这也是随机森林的唯一参数。首先在学习如何选择参数之前先介绍OOB的概念。

  6. OOB:行李错误率

  为了选择最佳M,此处需要使用的是OOB(拒绝错误)。我们知道,在构造每个决策树时,它是随机的并返回的。因此,对于每棵树,都有一些未参与树的样本优势,因此这些样品变成了袋子外,也就是说,即这些样品,namelyoob。因此,我们需要做OOB估计:

  (1)对于每个样品,将其树的分类计算为OOB样品

  (2)大多数投票作为样本的分类结果

  (3)使用错误的样品总数用作随机森林的OOB错误得分

  OOB错误评分是随机森林概括错误的不公正估计。它的结果类似于需要大量计算的Kemplation验证。因此,无需交叉验证或使用独立的测试集来获得错误估计。它可以在内部进行评估,也就是说,可以在生成过程中建立错误估计。

  当我们知道OOB的计算方法时,我们可以通过选择不同的M来计算OOB误差,并找出M的值,OOB误差的最小值。这与交叉验证的概念非常相似。

  7. RF特征的计量方法重要性

  (1)对于每个决策树,计算其OOB错误_0

  (2)选择一个功能,将噪声干扰随机添加到功能中,然后再次计算OOB错误_1

  (3)功能的重要性= ∑(OOB错误_1-OOB错误_0)/随机森林中的决策树数

  (4)对随机森林中特征变量的特征重要性排序。

  (5)然后重复上述步骤,直到选择该功能。

  说明:该公式特性的特征的重要性是:在随机添加噪声后,如果OOB误差增加,则表明此功能对样本分类的结果有更大的影响,表明重要程度更高。

  8. RF功能选择

  首先,特征选择的目标有两个目标:

  1:找到与分类结果高度相关的特征变量。

  2:选择较小的特征变量的结果,并能够充分预测因变量的结果。

  功能选择步骤:

  (1)对于每个决策树,计算其OOB错误

  (2)随机修改OOB中每个特征XI的值,计算OOB错误_2,然后再次计算重要性

  (3)根据功能的重要性进行排序,然后以后删除不重要的功能

  (4)然后重复上述步骤,直到选择该功能。

  9.几个问题

  (1)为什么样品应该随机绘制?

  答:如果未进行随机抽样,则每棵树的训练集相同,并且训练结果相同,因此此时投票决定毫无意义。

  (2)为什么要有样本?

  答:如果没有抽样,则每棵树的训练样本不同,没有交叉点。然后,每棵树都是偏见的,一个公平的。我们需要的是,没有决策树是公平的,然后让他们投票决定获得结果,这可以防止过度拟合。

  (3)是否有放回这里的样本?你每次抽水吗?

  注意:

  构造子集,子数据集的数据量与原始数据集相同。可以重复不同的子数据集的元素,并且也可以重复相同的sub -data集的元素。

  结论:以上是人工智能如何为每个人分类的人工智能随机森林如何对您有所帮助!问题?