RandomForestRegressor

时间：2023-03-07 02:54:39 网络应用技术

　　所有参数，属性和接口都与随机森林分类器一致。唯一的区别是返回树和分类树之间的差异，杂物的指标，参数标准不一致。

　　对分支的质量有三种类型的支持分支的质量：有三种类型的支持：

　　在返回树中，MSE不仅是分支质量的测量指标，而且是测量返回树回来的指标。当使用交叉验证时，通常被选为评估。

　　返回中较小的MSE。

　　返回树的得分接口返回R方形，而不是MSE。尽管均衡器误差始终为正，但在使用Sklearn中的平均正方形误差作为判断标准时，它是“负平方错误”（neg_mean_squared_error）。

　　当Sklearn计算模型评估指标时，将考虑指标本身的性质。权益误差本身是一个错误，该错误被分为损失（损失），以负数表示。

　　真正平方错误的值MSE实际上是neg_mean_squared_error删除负符号的数量。

　　没有用于随机森林回归的预测_proba接口，因为对于回归，没有概率问题可以分为一个类别，因此没有Predict_proba接口。

　　随机森林的另一个重要作用用于填充缺失的值。

　　说到人参的正确思考：

　　模型调整，第一步是找到目标：我们想做什么？

　　一般而言，此目标是增强模型评估指标。例如，对于随机森林，我们要改进的是模型在未知数据上的准确性（通过得分或OOB_SCORE_测量）。

　　在寻找这个目标之后，我们需要考虑：该模型未知数据的准确性是什么因素？

　　在机器学习中，我们用于测量模型未知数据准确性的准确性，称为概括错误。

　　当模型在未知数据（测试集或删除数据）上的性能较差时，这意味着模型的概括不够，概括误差很大，模型的效果也不好。

　　泛化错误受模型的结构（复杂性）的影响。当模型太复杂时，模型将过度拟合，并且概括能力不够，因此概括误差很大。

　　当模型太简单时，模型将不合适，并且拟合能力还不够，因此错误将很大。

　　只有当模型的复杂性恰到好处时，才能达到最小概括误差的目标。

　　n_estimators：促进到平滑，n_estimators↑，不会影响单个模型的复杂性；

　　max_depth：有增加和减少，默认值的最大深度，即最高复杂性，以及复杂性降低方向的参考；

　　max_depth↓，模型更简单，并移到图像的左侧；

　　min_samples_leaf：有增加和减少，最小限制为1默认值，即最高复杂性，以及在降低复杂度的方向上的参考；

　　min_samples_leaf↑，模型更简单，并移到图像的左侧；

　　min_samples_split：增加或减少，默认2的最小限制，即最高复杂性，以及在降低复杂性的方向上的参考；

　　min_samples_split↑，模型更简单，并移到图像的左侧；

　　max_features：有增加和减少。默认的自动是功能总数的开放正方形。它位于中部复杂性。

　　max_features↓，模型更简单，剩下图像；

　　max_features↑，模型更为复杂，图像正确；

　　标准：增加或减少，通常使用Gini；

　　如下图所示，每个点是集成算法中基本评估者生成的预测值。红色虚线表示这些预测值的平均值，蓝线代表数据的原始外观。

　　测量模型的偏差是准确的，偏差越小，模型越准确，以及该方法方法的预测结果是否是正方形之间的差异越小，模型越稳定。

　　一个好的模型必须预测最未知的数据是“准确”和稳定的。人参的目标是实现差异和偏差的完美平衡。

　　尽管差异和偏差无法同时达到最小值，但它们的概括误差可能具有最低点，我们正在寻找最低点。对于具有高复杂性的模型，以降低方差，并相对较低简单的模型，必须降低偏差。随机森林基础评估装置的偏差较低和较高的正方形差异。

　　评估设备：

RandomForestRegressor相关文章