当前位置: 首页 > 后端技术 > Python

统计学备忘单:常用术语和基本概念总结

时间:2023-03-26 16:25:36 Python

统计学是一门处理数据收集、组织、分析、解释和呈现的学科。统计的种类1)描述性统计描述性统计是以数字和图表的形式对数据的理解、分析和总结。针对不同类型的数据(数值和分类)使用不同的图形和图表分析数据,例如条形图、饼图、散点图、直方图等。所有解释和可视化都是描述性统计的一部分。重要的是要记住,可以对样本和人口数据进行描述性统计,但不使用人口数据。2)InferentialStatistics从人口数据中取出一些数据样本,然后从这些数据样本中,推断出一些东西(结论)。数据样本被用作得出有关整体情况的结论的基础。这可以通过各种技术来实现,例如数据可视化和操作。数据的种类1、数值数值数据是指数字或数字数据。数值数据可分为离散和连续数值变量。I)DiscreteNumericalVariables-离散变量的概念是指取值范围有限的变量,例如班级排名、部门教授人数等。II)ContinuousNumericalVariables-连续变量的值可以是无穷大,可以是范围内的任意数字,比如员工的工资。2.分类数据——分类数据类型是数据的字符类型表示,例如名称和颜色。通常,这些也有两种类型。I)OrdinalVariables——序数分类变量,其值可以在一个值的范围内排序,例如学生的成绩(a、B、C),或高、中、低。II)名义变量——这些变量没有排名,只是包含名称或一些类别,如颜色名称、主题等。MeasuresofCentralTendencyMeasuresofCentralTendency给出了数据中心的概念,即什么是中心的数据。有几个术语,例如平均数、中位数和众数。一个特定数值变量的均值是其中所有值的均值。当数据包含离群值时,不建议查找均值并将其用于任何类型的操作,因为单个离群值会显着影响均值。中位数是所有排序数字的中心值。如果总数是偶数,则它是中心2个值的平均值。它不依赖于或影响离群值,除非一半数据是离群值(在这种情况下它们不是离群值)。众数是观察中最常出现的值。Numpy不提供查找模式的函数,但Scipy提供。在使用的时候,不要只用三种方法中的一种,可以尝试三种方法都用,这样可以了解数据的本质。数据分布度量分布度量描述特定变量(数据项)的观察集的相似度或变异度。分布测量包括极差、四分位数和四分位数极差、方差和标准差。1.Range通过比较数据的最大值和最小值(maximum)来定义一个范围。2.四分位数四分位数是将数字列表分成四等分的值。找到四分位数的步骤是。按顺序排列数字会将列表分成4个相等的部分。4的切点是四分位数值。可以通过绘制25、50、75和100个百分位数来找到4个四分位数。其中Q2也称为中位数。它通过描述与平均值的绝对偏差来描述数据的变化,也称为平均绝对偏差(MAD)。3.四分位距(IQR)四分位距(IQR)是衡量前75个百分位数和后25个百分位数之间的分散度的指标。它通常出现在异常值检测和处理的上下文中。4.MeanAbsoluteDeviation通过描述相对于均值的绝对偏差来描述数据的变化,也称为平均绝对偏差(MAD)。简单地说,它告诉集合中每个点与均值的绝对距离。5.方差方差测量数据点与平均值的距离。要计算方差,您需要找到每个数据点与均值的差异,对其进行平方、求和并取均值。方差可以直接用numpy计算。方差的问题在于它与原始数据的度量单位不同,因为它是平方的。因为它不直观,所以大多数人更喜欢标准偏差。6.标准差方差的平方根就是标准差,因为我们对原来的单位进行平方,我们又得到了相同测量值的标准差。使用Numpy,这可以直接计算。正态分布正态分布是钟形曲线形式的分布。机器学习中的大多数数据集都遵循正态分布。如果它们不是正态分布,通常会尝试将它们转换为正态分布。许多机器学习算法在这里分布会很好地工作,因为在现实中,世界场景和许多用例也遵循这种分布。如果任何数据服从正态分布或高斯分布,那么它也服从三个条件,称为经验公式P[mean-std_dev<=mean+std_dev]=68%P[mean-2*std_dev<=mean+2*std_dev]=95%P[mean-3*std_dev<=mean+3*std_dev]=99.7%在进行探索性数据分析时,可以将任何变量分布转换为标准正态分布。偏度偏度是分布对称性的度量,可以用直方图(KDE)绘制,直方图在数据的模式处有一个峰值。偏度一般分为左偏数据和右偏数据。也有人理解为三种,第三种是对称分布,也就是正态分布。1.数据是右偏的(正偏分布)右偏分布是指数据有一个长尾巴(正轴)向右。右倾财富分配的一个典型例子是,很少有人拥有很高的财富,而大多数人处于中等水平。2.数据左偏(负偏分布)左偏分布是指数据有一个长尾巴向左(负轴)。一个例子可能是学生的成绩,将会有更少的学生获得更少的成绩,并且最大的学生将属于及格类别。中心极限定理中心极限定理:在分析任何总体的样本数据并进行一些统计测量后,标准差的均值与样本均值将近似相等。这只是中心极限定理。概率密度函数(PDF)如果您知道直方图,然后对数据进行分箱,则可以直观地分析数据。但是如果我们想对数值数据做多类分析,用直方图就很难做到了。这是使用概率密度函数的地方。概率密度函数是仅使用KDE(核密度估计)在直方图内绘制的一条线。上图中,3个条件怎么写,区分3类?使用直方图和PDF可以很容易地看出差异。从上面的直方图可以看出,如果值小于2,就是setosa。如果大于2且小于4.5,则为杂色。5到7是virginica。但是4.5之后的重叠区域会干扰判断,这里PDF可以给我们提供更多的理论支持。累积分布函数(CDF)CDF可以告诉我们有多少百分比的数据小于某个数字。找到CDF的过程是将所有直方图添加到指定点。另一种方法是用微积分,利用曲线下面积,找到你要CDF的点,画线,求内部面积。可以对PDF进行积分得到CDF,对CDF进行推导得到PDF。如何计算PDF和CDF我们将计算setosa的PDF和CDF。我们将花瓣长度转换为10个bin,并为每个bin提取样本数和边缘值,它们代表bin的起点和终点。计算PDF,我们将每个频率计数值除以总和,得到概率密度函数,找到PDF,我们可以继续计算CDF。计数,bin_edges=np.histogram(iris_setosa['PL'],bins=10)pdf=counts/sum(counts)cdf=np.cumsum(pdf)print(pdf)print(cdf)https://avoid.overfit.cn/post/77b3cb6cf95c4e46b3342f7af40b6451作者:AnjaliDharmik