当前位置: 首页 > 科技观察

机器学习新手常见的五个问题

时间:2023-03-20 19:08:19 科技观察

处理缺失值在数据预处理中,一个关键步骤是处理缺失数据,因为机器学习模型不会接受NaN值作为输入。有很多方法可以填充这些NaN值,但首先我们需要了解缺失值的意义。一种简单的方法是从您的机器学习数据集中删除所有缺失值,但在此之前,请检查您的机器学习数据集中出现的NaN值的总体百分比。如果小于1%,我们可以去除所有缺失值,否则我们需要选择其他方法来插补数据,例如集中趋势的度量,KNNImputer等。当我们在特征中使用数字时,我们使用均值或中位数.平均值是我们可以通过将一行中的所有值相加并除以它们的量级来计算的平均值。中位数也代表一个平均值。中位数将数据按大小顺序排列,形成一个数列,即数列中间的数据。当一组数据中的个别数据波动较大时,常用中位数来描述这组数据的集中趋势。如果机器学习数据集中存在偏态分布,通常使用中位数比均值更好。离群值/离群值离群值是与其他观察值有显着差异的数据点。有时,这些异常值也可能是敏感的。在处理异常值之前,建议先检查机器学习数据集。示例:离群值在基于观测降雨的深度值预测中很重要。房价预测中的异常值毫无意义。数据泄露机器学习模型中的数据泄露问题是什么?当我们用来训练机器学习模型的数据包含机器学习模型试图预测的信息时,就会发生数据泄漏。这可能会导致模型部署后的预测不可靠。此问题可能是由于数据规范化或规范化方法引起的。因为我们大多数人在将数据拆分为训练集和测试集之前,都会继续使用这些方法。实时选择正确的机器学习模型,我觉得不必要地转向一些复杂的模型可能会给面向业务的人带来一些可解释性问题。例如,线性回归比神经网络算法更容易解释。主要根据数据集的大小和复杂度来选择相应的机器学习模型。如果我们处理复杂的问题,我们可以使用一些高效的机器学习模型,比如SVN、KNN、随机森林等。大多数时候,数据探索阶段会帮助我们选择相应的机器学习模型。如果数据在可视化中是线性可分的,那么我们可以使用线性回归。如果我们对数据了解不多,SVM和KNN会有用。还有一个模型可解释性问题,例如线性回归比神经网络算法更容易解释。验证指标指标是模型预测变量和真实数据的定量测量。如果问题是回归方面的,关键指标是准确性(R2分数)、MAE(平均绝对误差)和RMSE(均方根误差)。如果是分类问题,关键指标是precision、recall、F1score和confusionmatrix。