当前位置: 首页 > 后端技术 > Python

统计科学系列的最小样本量计算

时间:2023-03-26 18:37:06 Python

本篇讲讲统计学中的最小样本量计算。我们先想想为什么叫最小样本量而不是最大或者直接叫样本量计算?这是因为最小样本量的概念主要用于抽样统计。抽样统计是为了研究某一事物的情况,从整体中抽取一部分样本进行研究,用样本代替总体情况。比如你要研究中学生的平均身高,你不太可能会去测量全国所有中学生的身高,然后求一个平均值。一个比较简单的方法是选取一部分全国中学生人口,然后用这部分学生的平均身高代替全国中学生平均身高。既然用样本的平均高度来代替整体的平均高度,那么我们就需要考虑一个问题,就是抽取的样本能否代表整体。假设全国有1000万中学生,你只选了100个学生,用这100个学生的平均身高来代替这1000万学生的平均身高,显然是不合理的。那么我们至少应该取多少个样本才能代表整体呢?minimumsamplesize就是最小样本量,也就是说至少需要这么多的样本,当然可以比这个更多。采样的样本越多,结果就越具有代表性。但由于现实中很难获得尽可能多的样本,为了保证抽样结果具有足够的代表性,我们一般选择最小样本量。最小样本量是如何确定的?这就是我们将在本文中重点关注的内容。在说最小样本量之前,先说另一个概念,统计功效,也就是功效值。这个在之前的文章中也有提到,这里再提一下。在假设检验中,如果计算出的P值小于或等于显着性水平α,则拒绝原假设,否则接受原假设。在这个决策过程中,很容易犯两种错误:第一种错误(I类错误)叫做弃真错误,是漏诊,即你有病(假设是正确),但你没有检测到,所以它被拒绝了;第二类错误(typeIIerror)是假错误,也就是误诊,就是你没有生病(假设错误),却被诊断为有病(假设正确),所以它是假设被接受了。下图中左边的分布是H0对应的分布,右边的分布是H1对应的分布,α是第1类错误值,β是第2类错误值。I类错误的取值一般为0.05,II类错误的取值一般为0.1或0.2,power=1-β,表示你对H1分布下判断正确的把握有多大,即你有多确定是你能正确拒绝H0假设。上图中H1分布下对应的整体面积减去图中紫色部分的面积就是幂的大小。具体计算公式如下:Φ表示z值对应的累积概率,即正态分布中的面积,Δ为两组样本均值之差,σ为各组标准差样本数,n为样本数。在一般的AB实验中,我们假设两组AB是同质的,样本量相同,所以有σ1=σ2,n1=n2。将上面的幂公式换算后,我们最终可以得到以下关于样本量的公式:注意,不同的检验满足的分布不同,对应的幂公式也不同,最小样本量公式也是由幂导出的,所以不同的检验方法对应的最小样本量公式也不同。在本文中,我们以满足正态分布的Z-test为例。