今天我们就来聊聊统计学中的偏态分布。在谈论偏态分布之前,让我们先了解一下正态分布。下图在公众号文章中多次出现,就是传说中的正态分布。这张图中的横轴是随机变量x的具体值。正态分布的中心点是随机变量x的均值μ,以均值为中心,然后向两侧扩散。既然是均值,肯定有比均值大的点,也有比均值小的点,我们用标准差σ来表示数据集的离散程度,即距离从平均值μ。纵轴是x对应的概率密度。我们都应该知道,概率是用来表示一个值或一种情况发生的可能性。概率密度等于一个区间(随机变量x取值范围)的概率除以区间长度。横轴和纵轴围成的面积表示横轴x对应的这个区间出现的概率。x轴标记了7个点,分别是:μ,u+σ,u-σ,u+2σ,u-2σ,u+3σ,u-3σ,即距离均值1倍,2倍,3倍,标准差3倍以上的距离。可以看出,64.2%(34.1+34.1)的数据集中在(u-σ,u+σ)之间,27.2%的数据集中在(u±σ,u±2σ)之间,4.2%的数据集中在(u-σ,u+σ)之间data位于(u±2σ,u±3σ),其余为(u±3σ,∞)。说明大部分数据还是集中在平均值周围,我们生活中的很多东西都符合正态分布,这也是为什么可以用平均值代替总体水平的原因之一,比如平均身高,平均工资等等等等。虽然大多数情况下数据呈正态分布,但也有数据不呈正态分布的情况。此时,它是一个偏态分布。有两种偏态分布,左偏和右偏。长尾在哪一边就是文章。下面第一张图的长尾是左偏的,最后一张图的长尾是右偏的。如果是左偏的,说明大部分集中在右边,即mode>median>mean;如果是右偏,说明大部分都集中在左边,即mode
