当前位置: 首页 > 科技观察

综合学习:三个臭皮匠,胜过诸葛亮

时间:2023-03-17 21:53:06 科技观察

【.com原稿】俗话说“三个臭皮匠,顶诸葛亮”,如果很多弱小的人都能有办法集中精力发挥智慧,那也能取得更好的效果。其实,集成学习的思想也是一样的——在对新实例进行分类时,将若干个个体分类器集成在一起,通过组合多个分类器的分类结果来确定最终的分类,从而达到比单个分类器更好的性能。如果把单个分类器比作一个决策者,那么集成学习的方法就相当于多个决策者一起做决策。集成学习的常用算法目前,集成学习常用的算法有3种,分别是:bagging、boosting和stacking。Bagging算法Bagging算法,或BootstrapAggregating算法。人们通常使用Bagging这个名字,因为它是结合了Bootstrapping和Aggregagtion的组合模型。Bagging算法主要是对样本训练集进行随机抽样,通过反复抽样训练新的模型,最后根据这些模型选择综合预测结果。Bagging基于Bagging的代表算法是RandomForestBoostingAlgorithmBoosting(提升)算法,是一种常用且有效的统计学习算法,属于迭代算法。Boosting和Bagging之间的区别在于加权数据是使用弱分类器顺序训练的。Boosting通过不断使用一个弱学习器来弥补前一个弱学习器的“不足”的过程,串行构建一个更强的学习器。这个强学习器可以使目标函数的值足够小。BoostingBoosting系列算法中最流行的算法主要有AdaBoost算法和GBDT算法。StackingalgorithmStacking(堆叠)算法是一种集成学习技术,通过元分类器或元回归器将多个分类模型或回归模型集成在一起。基础模型使用整个训练集进行训练,元模型使用基础模型的特征作为特征进行训练。堆叠基础模型通常包含不同的学习算法,因此堆叠通常是一种异构集成。集成学习的组合策略平均法记录数值输出,最常见的组合策略是使用平均法。简单平均法加权平均法但是对于大规模积分,权重参数较多,更容易导致过拟合。加权平均法不一定比简单平均法好。一般来说,当个体学习者的表现差异较大时应采用加权平均法,当个体学习者的表现相近时应采用简单平均法。投票方法与多数投票方法:预测得票最多的代币。如果有多个标记同时获得第一票,则随机选择其中一个。假设我们的预测类别是,对于任意一个预测样本x,我们弱学习器的预测结果分别是。最简单的投票方式就是相对多数投票方式,也就是我们常说的少数服从多数,即弱学习器对样本X的预测结果中,数量最多的类别就是最终的分类类别.如果超过一个类别获得最高票数,则随机选择一个类别作为最终类别。绝对多数投票法:如果一个标记获得超过半数的选票,则预测为该标记;否则,预测将被拒绝。相对多数表决方式比较复杂,也就是我们常说的需要过半数的票数。在相对多数表决的基础上,不仅需要100票,还需要半数以上的票数。加权投票法:算法比较复杂。和加权平均法一样,将每个弱学习器的分类投票乘以一个权重,最后将每个类别的加权投票相加。***的值对应的类别就是最终的类别。.Learningmethod当训练数据很多的时候,为了最小化误差,可以使用更强大的组合策略,就是使用“learningmethod”,即通过另一个learner来组合。对于学习方法,代表性的方法是stacking。在使用stacking这种组合策略的时候,不是对weaklearner的结果做简单的逻辑处理,而是增加了一层learner,即我们将weaklylearner的学习结果作为输入,训练的输出set作为输出,再训练一个learner得到最终的结果。在这种情况下,我们将弱学习器称为初级学习器,将用于组合的学习器称为次级学习器。对于测试集,我们先用primarylearner预测一次得到secondarylearner的输入样本,然后用secondarylearner预测一次得到最终的预测结果。【原创稿件,合作网站转载请注明原作者和出处为.com】