当前位置: 首页 > 科技观察

您需要针对机器学习性能优化的6个指标

时间:2023-03-21 16:19:44 科技观察

有许多指标可用于衡量模型的性能,具体取决于您正在进行的机器学习类型。在本文中,我们将研究分类和回归模型的性能指标,并讨论可以更好地优化哪一个。有时,要查看的指标会因您首先尝试解决的问题而异。机器学习指标示例分类问题的最佳分类表示例1.真阳性(召回率)真阳性率(也称为召回率)是二元/非二元分类问题中的首选性能指标。大多数时候(如果不是所有时候),我们只对正确预测一个类别感兴趣。例如,如果你预测糖尿病,你会更关心预测一个人是否患有糖尿病,而不是预测这个人是否患有糖尿病。在这种情况下,正类是“这个人有糖尿病”,负类是“这个人没有糖尿病”。这只是预测正类的准确率(这不是准确率性能指标。更多细节见下面的数字4)2.ROCCurve(ReceiverOperatingCharacteristicCurve)ROC曲线显示了分类模型在不同阈值下的性能(分类到特定类别的概率的表现)。它绘制了真假阳性率和假阳性率。降低阈值将以牺牲误报率为代价提高真阳性率,反之亦然。3、AUC(AreaUndertheCurve)AUC又称“ROC曲线下面积”。简而言之,AUC告诉您正确分类的可能性。AUC越高代表模型越好。4.准确性默认情况下,准确性是首先要注意的。然而,真正的数据科学家知道准确性太容易误导人了。更好的称呼方式是预测所有类的平均准确率。就像我在TrueTrueRate中提到的,这是最理想的指标。准确性将取“真值”和“真负值”之和的平均值。在不平衡分类问题中,大多数时候负类比正类更具有代表性,因此你更有可能拥有较高的真负率。然后准确性将偏向于对负面类别的准确预测,这可能不会引起任何人的兴趣。RegressionOptimizationinMachineLearningRegressionPlotExample5.错误这个错误通常在R旁边被忽略,它告诉我们更多关于拟合值相对于回归线的信息(即拟合值和回归线之间的平均距离)适合)精度信息。这在计算模型的置信度和预测区间时尤为重要。它更容易解释,因为它使用响应变量的自然单位,而R没有单位,仅介于0和1之间。有不同类型的误差,例如“平均绝对误差”和“均方根误差”。每个错误都有其优点和缺点,必须单独处理以评估模型。6.R2现在,虽然“标准误差”很重要,但R是衡量一个好的回归模型的实际指标。它告诉我们模型解释了因变量和自变量之间的差异。较高的R会提供更好的模型,但是,如果它太高(接近99%),有时会有过度拟合的风险。R可能会产生误导,因为相关性与因果关系的争论会给R一个不合逻辑的高R。用户的目标会影响模型的性能,因此请谨慎选择准确性在分类问题中并不总是一个很好的指标,并且R可能不是回归的最佳选择.毫无疑问,它们都是最容易理解的,尤其是对于非技术利益相关者而言(这可能是首先构建模型的更大原因)。更好的方法可能是考虑各种性能指标并考虑您的初始目标。模型的性能始终取决于用户的目标。从一个人的角度来看,表现不佳可能对另一个人来说并不相同。