当前位置: 首页 > 网络应用技术

三个集成学习算法原理和核心公式推导

时间:2023-03-07 01:48:09 网络应用技术

  指南:本文主要介绍三种综合学习算法的原理和重要公式衍生物,包括随机森林,自适应改进,梯度提升。仅简要介绍关键理论和公式推导链接。

  3所综合学习的主要学校

  在经典的机器学习方案中,当单个学习模型的性能不足以有效地满足算法的准确性时,人们开始强迫综合学习模型 - 他们的思想和起点非常直观,即三个臭味皮革工匠在Zhuge Liang期间的这三个臭皮的不同合作模型中演奏了Zhuge Liang.furthermore,综合学习被细分为行李和增强。前者是平行模式。然后最终结果是增加。在这里,包装是一种合成的词汇,旨在进行BoostStrap聚合;后者是一个串行模型。这是有很多电力。算,根据不同的策略,车轮战争也可以分为adaboost和GB。其中,Adaboost算法中各种臭动工的迭代是不断弥补其缺点/错误,而GB算法的GB算法是迭代的焦点是不断地弥补您与您与Zhuge Liang/liang/the Bap的差异理想的类型或残差。

  当然,除了两种主要的行李和增强类型外,综合学习还具有第三大流派,即堆叠。从其名称中,可以看出线索有些堆栈。本质是上一轮学习的输出/在标签转换后,它被用作下一轮学习的输入/特征,然后再次训练。实际上,这是一组深度学习。。

  随机森林是一种典型的行李类型综合学习算法。我个人喜欢这种算法的名称:森林一词可以从决策树中得出的算法中窥视。当将多棵树用作薄弱的学习装置时,形成的综合学习算法自然称为最合适的森林。随机单词的图像反映出,当它构建每个决策树时,它实际上采用了一种随机抽样方法来确保每个弱学习设备的结果多样性。。

  在这里,由于据说随机森林是行李类型的典型代表,因此暗示是还有其他行李算法,而恰恰是这种情况。,主要差异主要是由于采样方法的差异:

  实际上,潜水员的行李算法无非是区分它是被采样,采样还是采样。那么,为什么有4种类型?事实证明,在采样执行过程中,采样样本被细分了。由于行的采样可以区分是否有背部,可以将采样采样与衍生的两个特定算法区分开来吗?,这是不可能的,因为功能的功能意味着重复的功能。在机器学习培训期间重复的功能或复制功能无法改变学习效果;带来学习效果的差异,因为这直接带来了算法培训样本的类别平衡,这自然会影响培训结果。

  装袋算法的原理非常简单易懂,算法的起点也非常简单。其中没有很多公式。要点需要理解:以下三点:

  当然,以上两个公式只能增加综合学习效果的改善,并且不能详细描述。当然,实际上,行李算法将减少偏差,但统计平均值等同于效果弱学习装置。如何减少偏差需要特定的问题,特别是调解!

  了解机器学习正方形的差异和偏差

  图片源自文章“了解偏见变化2012”

  原始链接:http://scott.fortmann-roe.com/docs/biasvariance.html

  此外,由于行李类型正在平行训练多个模型,然后全面决策的效果 - 制定每个薄弱的学习设备,全面决策的方法实际上是一个值得探索的问题。简而言之,这是两个硬投票和软投票的方式。以第二个分类问题为例,前者是直接计算所有弱学习设备的结果,然后将最终结果作为最终结果;虽然后者不是直接直接的统计结果是计算每个弱学习设备的分类概率,并计算所有弱学习设备的两类总和,并将概率的总和作为最终结果。我不会详细介绍。

  与包装流派的综合学习思想不同,增强类型的重点是站在其前辈肩膀上的子孙后代的肩膀上。当然,Adaboost和GB无法外出。尽管理论上的最后一个学习设备可能会根据所有前任的经验具有最佳性能,但Adaboost不仅是基于最终弱学习设备的结果,而且仍然是加权的。所有考虑所有考虑所有考虑所有加权学习设备的所有人都考虑了所有的所有考虑。弱学习设备的结果。

  如前所述,基于Adaboost算法的训练效果,基于先前弱学习设备的训练效果,重点是以目标方式执行以下训练过程的错误样本。具体而言,这是为了增加上一轮训练的样本重量。

  以第二类为例,是adaboost算法的核心算法(公式派生):

  其中,通用汽车(X)是M弹中薄弱的学习设备。FM(X)和FM-1(X)是M-1圆圈训练后的集成学习模型。设备的加权系数

  首先分析每个弱学习设备对综合学习模型的贡献。从直觉上讲,每个弱学习设备的权重当然与其学习效果有关:具有良好学习效果的说话的权利意味着体重更大。

  其中,EM代表M-熟悉学习设备的模型训练错误率,这是值得误差样本与总样本重量总和的比例。权重和归一化,分母为1。

  然后在训练弱学习设备时分析样品右侧的样品右侧。再次查看损失函数。每个样品的损失可以看作是两部分产品形式。第一部分与在M轮中训练的弱学习装置GM(X)无关,后一轮与它直接相关。它被视为样品加权系数 - 这也是样品的根本原因每一轮训练模型的重量。记住第二轮训练装置的I -Thed样品的重量系数:

  可以进一步发现重量的更新策略:

  换句话说,下一轮样品的样本重量与上一轮样品的训练结果以及上一轮弱学习装置的训练结果有关。值反映为样本权重的减少。否则,重量会增加。当然,每一轮更新后,都需要添加样品重量并执行。

  弱学习设备在整合学习的最终结果和每一轮训练的样本重量的重量也是Adaboost算法的灵魂。表达Adaboost是一种基于重量的改进算法。

  此外,与随机森林指定的决策树不同,ADABOOST算法并不限制特定的弱学习设备,因此您可以训练任何经典的学习算法,但是默认的弱学习设备实际上是一个决策树:用于分类任务的决策树:,弱学习设备是一个决策树,具有max_depth = 1,通常称为决策树树桩;对于回归任务,弱学习设备是max_depth = 3的决策树。

  与Adaboost算法类似,GB(梯度改进)集成学习算法也是基于多个弱学习设备训练效果的加权效应的最终判断,并且每一轮训练也针对上一轮训练效果。与Adaboost的样本机制不同,GB专注于上一轮训练后的残留物,这相当于通过集成学习通过算法继电器,因此最终的学习效果继续接近实际水平。

  首先,仍然给出GB的损失函数,这是MSE形式:

  其次,M轮之后的集成学习模型仍然是每个弱学习设备的加权需求:

  我们知道,在优化机器学习算法时,可以使用梯度下降方法来求解最佳参数,并以其自身梯度相反的方向迭代参数,最后可以连续接近最佳结果。想法,综合学习设备FM(X)经常优化,迭代迭代实际上可以被视为连续迭代优化的参数;另一方面,对于GB的MSE形式损失函数,FM(X)作为具有FM(X)的参数,作为参数,指南的梯度为:

  与FM(X)及其迭代公式的梯度相比,我们可以看到第一轮训练的弱学习设备实际上是适合当前残差的弱学习装置,这也是GB.的核心思想。,GB也称为功能空间的梯度下降方法。

  这是GB集成学习算法的起点,它也是理解连续拟合残差的核心。不再给出相关的公式衍生物。

  原始:https://juejin.cn/post/7096858497773572096