前面我们讲了中心极限定理。在本节中,我们将讨论大数定理。大数定理和中心极限定理是两个比较接近的概念,这两个定理经常一起出现。我们详细看一下大数定理的内容:大数定律的意思是:随着样本量n的不断增加,样本平均值会越来越接近总体平均值(期望μ),我们称overallaverageExpectation,关于均值和期望的差值。基于大数定理的存在,我们在日常分析中一般使用样本的均值来估计总体的均值。比如大家熟知的实验,其实就是用种群中的一些样本做实验,然后在一些样本上得到的平均效果可以等价地用在所有样本上得到的效果来代替。但是需要注意的是,我们上面说的是随着样本数量的增加,样本均值会越来越接近整体样本均值,而接近并不等于相等,所以两者之间还是会存在一些偏差样本均值和总体值,但是在实际业务中,我们一般无法得到总体均值,所以只能使用样本均值,但是要知道还是有一些偏差的。接下来,我们用数据模拟:我们先随机生成10w个值,把这10w个值作为我们的种群,然后从这10w中随机抽取100、200、300……99900、100000,对每次抽取计算一个均值样本的值,最终得到99900个平均值。我们将这些均值按照样本量从小到大排序,最后绘制均值趋势图如下:上图中的红线代表整体均值。可以看出,随着样本容量n的不断增加,样本均值的波动幅度越来越小,也越来越接近总体均值。上述过程的Python实现代码如下:importnumpyasnpiimportpandasaspdall_value=np.random.randint(1,100000,100000)sample_size=[]sample_maen=[]foriinrange(100,100000,100):样本大小。append(i)sample_maen.append(np.random.choice(all_value,i).mean())pd.DataFrame({"sample_size":sample_size,"sample_maen":sample_maen}).set_index("sample_size").plot()plt.axhline(all_value.mean(),color="red")可以自己复制代码运行。
