所有参数,属性和接口都与随机森林分类器一致。唯一的区别是返回树和分类树之间的差异,杂物的指标,参数标准不一致。
对分支的质量有三种类型的支持分支的质量:有三种类型的支持:
在返回树中,MSE不仅是分支质量的测量指标,而且是测量返回树回来的指标。当使用交叉验证时,通常被选为评估。
返回中较小的MSE。
返回树的得分接口返回R方形,而不是MSE。尽管均衡器误差始终为正,但在使用Sklearn中的平均正方形误差作为判断标准时,它是“负平方错误”(neg_mean_squared_error)。
当Sklearn计算模型评估指标时,将考虑指标本身的性质。权益误差本身是一个错误,该错误被分为损失(损失),以负数表示。
真正平方错误的值MSE实际上是neg_mean_squared_error删除负符号的数量。
没有用于随机森林回归的预测_proba接口,因为对于回归,没有概率问题可以分为一个类别,因此没有Predict_proba接口。
随机森林的另一个重要作用用于填充缺失的值。
说到人参的正确思考:
模型调整,第一步是找到目标:我们想做什么?
一般而言,此目标是增强模型评估指标。例如,对于随机森林,我们要改进的是模型在未知数据上的准确性(通过得分或OOB_SCORE_测量)。
在寻找这个目标之后,我们需要考虑:该模型未知数据的准确性是什么因素?
在机器学习中,我们用于测量模型未知数据准确性的准确性,称为概括错误。
当模型在未知数据(测试集或删除数据)上的性能较差时,这意味着模型的概括不够,概括误差很大,模型的效果也不好。
泛化错误受模型的结构(复杂性)的影响。当模型太复杂时,模型将过度拟合,并且概括能力不够,因此概括误差很大。
当模型太简单时,模型将不合适,并且拟合能力还不够,因此错误将很大。
只有当模型的复杂性恰到好处时,才能达到最小概括误差的目标。
n_estimators:促进到平滑,n_estimators↑,不会影响单个模型的复杂性;
max_depth:有增加和减少,默认值的最大深度,即最高复杂性,以及复杂性降低方向的参考;
max_depth↓,模型更简单,并移到图像的左侧;
min_samples_leaf:有增加和减少,最小限制为1默认值,即最高复杂性,以及在降低复杂度的方向上的参考;
min_samples_leaf↑,模型更简单,并移到图像的左侧;
min_samples_split:增加或减少,默认2的最小限制,即最高复杂性,以及在降低复杂性的方向上的参考;
min_samples_split↑,模型更简单,并移到图像的左侧;
max_features:有增加和减少。默认的自动是功能总数的开放正方形。它位于中部复杂性。
max_features↓,模型更简单,剩下图像;
max_features↑,模型更为复杂,图像正确;
标准:增加或减少,通常使用Gini;
如下图所示,每个点是集成算法中基本评估者生成的预测值。红色虚线表示这些预测值的平均值,蓝线代表数据的原始外观。
测量模型的偏差是准确的,偏差越小,模型越准确,以及该方法方法的预测结果是否是正方形之间的差异越小,模型越稳定。
一个好的模型必须预测最未知的数据是“准确”和稳定的。人参的目标是实现差异和偏差的完美平衡。
尽管差异和偏差无法同时达到最小值,但它们的概括误差可能具有最低点,我们正在寻找最低点。对于具有高复杂性的模型,以降低方差,并相对较低简单的模型,必须降低偏差。随机森林基础评估装置的偏差较低和较高的正方形差异。
评估设备: