当前位置: 首页 > 科技观察

数据科学必知必知:10个重要概念+22个图表含义_0

时间:2023-03-17 11:57:34 科技观察

01Bias-variancetrade-off这是一个永远位于机器学习最重要理论顶端的概念。机器学习(包括深度学习)中的几乎所有算法都力求在偏差和方差之间取得适当的平衡,这张图清楚地解释了两者之间的对立关系。02基尼不纯度和熵基尼(缺乏同质性的度量)和熵(随机性的度量)都是决策树中节点不纯度的度量。对于这两个概念更重要的是理解它们之间的关系,以便能够在给定场景中选择正确的指标。基尼杂质(系数)通常比熵更容易计算(因为熵涉及对数计算)。03Precisionvs.RecallCurvePrecision-Recall曲线显示了不同阈值下精度和召回率之间的权衡。曲线下面积大代表高召回率和高精度,其中高精度与低误报率相关,高召回率与低误报率相关。它可以帮助我们根据需要选择正确的阈值。例如,如果我们的目标是减少1类错误,我们需要选择高精度,而如果我们的目标是最小化2类错误,那么我们应该选择一个召回率高的阈值。精度分母是一个变量:即假阳性(分类为阳性的阴性样本)每次都不同。召回分母是一个常数:它代表真实值的总数,因此将始终保持不变。这就是为什么下面的Precision图最后有一个凸起,而Recall始终保持平坦。04ROC曲线ROC曲线是显示分类模型在所有分类阈值下性能的图表。该曲线绘制了两个参数:真阳性率假阳性率这条曲线下的面积称为AUC,也可以用作性能指标。AUC越高,模型越好。05肘部曲线用于选择K-means算法中的最优簇数。WCSS(簇内平方和)是给定簇中每个点与质心之间的平方距离之和。当我们用K(簇数)值绘制WCSS时,图形看起来像一个弯头(弯曲)。随着集群数量的增加,WCSS值将开始下降。K=1时的WCSS值是06三个地块中最大的。在对高维数据进行主成分分析后,它可以帮助我们可视化每个主成分解释的变异百分比。为了选择正确数量的主成分来考虑我们的模型,我们通常绘制它并选择能给我们足够好的总体方差百分比的值。07LinearandLogisticRegressionCurves对于线性可分的数据,我们可以做线性回归或者logistic回归,都可以作为决策边界曲线/线。然而,在逻辑回归的情况下,由于通常只有2个类别,所以拥有线性直线决策边界可能行不通,一条直线,其中值从低到高非常均匀地上升,因为它在之后不够陡峭值的突然跳跃你会得到很多边界高值或低值,这些值最终会被错误分类。因此,概率从高到低的“边界”区域实际上并不存在。所以通常应用sigmoid变换将其转换为sigmoid曲线,该曲线在极值处是平滑的,在中间几乎是线性的。08支持向量机(几何理解)09均值为0、标准差为1的特殊正态分布的标准正态分布规则(z分布)。一个经验法则表明,99.7%的数据观察到的数据符合正态分布分布位于均值的3个标准差范围内。根据这一规则,68%的数据在一个标准差以内,95%在两个标准差以内,99.7%在三个标准差以内。10学生T分布T分布(也称为学生T分布)是一组看起来与正态分布曲线几乎相同的分布,只是更短和更宽/更粗。当样本较小时,我们使用T分布而不是正态分布。样本量越大,t分布越像正态分布。事实上,在30个样本之后,T分布几乎与正态分布相同。总而言之,我们可能会遇到许多小而关键的概念,这些概念构成了我们决策或选择正确模型的基础。本文提到的重要概念都可以用相关的图来表示。这些概念非常重要,我们需要第一眼看到它们就知道它们的含义。如果你已经掌握了以上概念,那么试着解释下图代表的是什么: