当前位置: 首页 > 科技观察

机器学习技术中的集成学习是什么?

时间:2023-03-20 20:59:31 科技观察

[.com速译]集成学习是一种强大的机器学习技术。集成学习通过使用多个机器学习模型来提高预测结果的可靠性和准确性。但是使用多个机器学习模型如何使预测更准确呢?可以使用哪些技术来创建集成学习模型?下一节将探讨这些问题的答案,并检查使用集成模型的基本原理和创建集成模型的主要方法。什么是集成学习?简单地说,集成学习就是训练多个机器学习模型并将它们的输出组合起来的过程。基于不同的模型,组织努力构建最佳的预测模型。结合各种机器学习模型可以提高整体模型的稳定性,从而获得更准确的预测。集成学习模型通常比单个模型更可靠,因此,它们经常赢得许多机器学习竞赛。工程师可以使用多种技术来创建集成学习模型。虽然简单的集成学习技术涉及对不同模型的输出进行平均,但已经开发出更复杂的方法和算法,专门用于组合许多基础学习器/模型的预测。为什么要使用集成训练方法?由于多种原因,机器学习模型可能彼此不同。不同的机器学习模型可能对人口数据的不同样本进行操作,可能使用不同的建模技术,并使用不同的假设。想象一下,如果你加入了一个由不同专业人士组成的团队,假设你正在和其他成员讨论一个技术话题,那么必然会有一些你知道和不知道的技术。他们和你一样,只对自己的专业有所了解,而对其他专业技术一无所知。然而,如果这些技术知识最终能够结合起来,它将导致对更多领域的更准确的猜测。这就是集成学习的原理,就是将不同个体模型(团队成员)的预测结合起来,以提高准确率,并最大限度地减少错误。统计学家表明,当一组人被要求使用一系列可能的答案来猜测给定问题的正确答案时,他们的所有答案都会形成一个概率分布。真正知道正确答案的人会自信地选择正确答案,而选择错误答案的人会在一系列可能的错误答案中分散猜测。比如玩猜谜游戏,如果你和两个朋友都知道正确答案是A,那么你们三个人都会选A,而不知道答案的其他三个人很可能会猜错B,C,D,orE,结果是A有三票,其他答案可能只有一两票。所有模型都有一些错误。一个模型的误差将不同于另一个模型产生的误差,因为模型本身由于上述原因而不同。当检查所有错误时,它们不会集中在一个答案周围,而是广泛分布。不正确的猜测基本上分散在所有可能的错误答案上并相互抵消。同时,来自不同模型的正确猜测将聚集在正确答案周围。使用集成训练方法时,可以找到更可靠的正确答案。简单的集成训练方法简单的集成训练方法通常只涉及统计集成技术的应用,例如确定一组预测的模式、平均值或加权平均值。模型是一组数字中出现频率最高的元素。为了达到这个模型,各个学习模型返回他们的预测,这些预测被认为是对最终预测的投票。预测平均值是通过计算预测的算术平均值(四舍五入到最接近的整数)来确定的。最后,可以通过为用于创建预测的模型分配不同的权重来计算加权平均值,其中权重代表该模型的预测重要性。类别预测的数值表示乘以权重(从0到1.0),将各个加权预测相加,结果四舍五入为最接近的整数。高级集成训练方法现在有三种主要的高级集成训练技术,每种技术都旨在解决特定类型的机器学习问题。“装袋”技术用于减少模型预测的方差,即基于相同观测值时预测结果的差异程度。使用Boosting技术消除模型中的偏差。最后,Stacking常用于改进预测结果。集成学习方法一般可以分为两类:顺序集成方法和并行集成方法。顺序集成方法被命名为“顺序”,因为基础学习器/模型是顺序生成的。在顺序集成方法的情况下,基本思想是利用基学习器之间的依赖关系来获得更准确的预测。错误标记的示例将调整其权重,而正确标记的示例将保持相同的权重。每次生成新的学习器时,权重都会发生变化,其准确性也会提高。与顺序集成模型相反,并行集成方法并行生成基础学习器。在进行并行集成学习时,可以利用基学习器是独立的这一事实,因为可以通过对每个学习器的预测进行平均来降低整体错误率。集成训练方法可以是同质的或异质的。大多数集成学习方法都是同质的,这意味着它们使用单??一类型的基础学习模型/算法。相反,异构集成使用不同的学习算法来使学习者多样化,以确保尽可能高的准确性。集成学习算法的例子。用于集成提升的视觉顺序集成方法的示例包括AdaBoost、XGBoost和梯度树提升。这些是升升模型。对于这些提升模型,目标是将表现不佳的弱学习者转变为高功能学习者。AdaBoost和XGBoost等模型从许多弱学习器开始,这些学习器的性能比随机猜测要好一些。随着训练的继续,权重将应用于数据并进行调整。在早期训练中被学习者错误分类的实例将具有更大的权重。在对所需数量的训练时期重复此过程后,通过加权和(对于回归任务)和加权投票(对于分类任务)组合预测。装袋学习过程并行集成模型的一个例子是随机森林分类器,随机森林也是装袋技术的一个例子。术语“bagging”来自“bootstrapaggregation”。使用称为“自举抽样”的抽样技术从总数据集中抽取样本,基础学习器使用这种技术进行预测。对于分类任务,基础模型的输出使用投票进行聚合,而对于回归任务,它们是平均的。随机森林使用单个决策树作为基础学习器,并且集成中的每个决策树都是使用数据集中的不同样本构建的。特征的随机子集也用于生成决策树。产生高度随机化的个体决策树,所有决策树结合起来提供可靠的预测。堆叠集成可视化在堆叠集成技术中,多个回归或分类模型通过更高级别的元模型组合在一起。通过输入整个数据集来训练较低级别的基础模型。然后将基本模型的输出用作训练元模型的函数。堆叠集成模型在本质上通常是异构的。原文标题:什么是集成学习?作者:丹尼尔尼尔森