当前位置: 首页 > 后端技术 > Python

统计科学系列讲置信度和置信区间

时间:2023-03-26 19:06:22 Python

今天这篇文章讲统计学中的置信度和置信区间。1.点估计在说置信度和置信区间之前先说点估计。那么什么是点估计呢?举两个例子你就知道了。现在您想知道学校学生的身高。你可以测量所有的学生并得到答案。这个方法不错,得到的数据绝对是最真实的。但是这里有个问题,问题是什么?也就是如果学生太多,工作量太大,无法衡量全部,怎么办?然后随机抽取一部分学生,然后测量这部分学生的身高,得到一个值(一般取平均值),用这部分学生的平均值来估计整个学生的身高。我们称这种估计方法为点估计。现在你想看看某条流水线上iPhone的故障率,你怎么看?最笨的办法就是把所有的手机都打开试用,统计不合格手机的比例。这可能吗?很明显不是。那怎么才能知道这条流水线的质量好坏呢,就是抽样,在整条流水线上抽取一些手机进行检测,得出一个合格率,然后用这个合格率来估算整条流水线的合格率,同理点估计。现在你明白点估计的意思了吗,就是用随机抽样的样本计算出来的指标值来估计整体的指标情况。常用的点估计方法有:用样本均值估计总体均值,用样本方差估计总体方差,用样本分位数估计总体分位数,用样本中位数估计总体中位数。2.区间估计以前上学的时候经常考试,考试后总是喜欢估计分数。普通人不可能直接估计出一个具体的数字。他们必须估计一个大概的数字。什么是大概数?比如高考的分数预计在600左右,其实是一个区间,很多食品包装袋上通常写着±0.5KG,什么意思呢?也就是说,要么给你多0.5公斤,要么给你少0.5公斤。我们把这种用范围估计事物的方法称为区间估计,得到的区间就是置信区间。3.信心你估计了一个区间,但你的估计准确吗?它有多准确?我们称这个估计区间的准确性(可信度)为置信度。比如我有95%的置信度估计我的高考成绩是600-650,这里的置信区间是[600,650],置信度是95%。一般来说,置信水平和置信区间是同向的。你是什??么意思?也就是说,置信水平和置信区间通常遵循相同的趋势。置信水平高时,置信区间大;当置信区间很大时,置信水平也很高。比如我有100%的置信度估计我的高考成绩是0-750,这里的置信区间是[0,750]包括所有分数的可能性,所以置信度一定是100%。4.如何计算置信区间那么我们如何通过一些样本来计算整体的置信区间呢?主要有以下几个步骤:step1:首先,明确要解决的问题。是你要估计的吗?无论是在校学生的身高,还是学生的成绩。Step2:求抽样样本的均值和标准误差。注意,标准误与标准差不一样(标准差反映了整个样本与样本均值的离散程度,标准误反映了样本均值与总体均值的变异程度)。标准偏差等于方差的平方根。标准误差等于样本标准偏差除以n的平方根。第三步:确定所需的置信水平。比如常用的95%confidencelevel表示我有95%的置信度估计是正确的,这保证了样本的均值会落在总体均值的2个标准差之内。Step4:查z表,找到z值。什么是z表?你忘了z表是标准正态分布表,用来反映标准分和概率值之间的关系,即通过标准分可以查到概率值,标准分也可以通过概率值被查回来。现在我们知道95%置信度对应的概率值为2.5%,我们只需要通过标准正态分布表找出2.5%概率对应的标准分值,即z值即可。常用置信度与标准分z值对应表step5:计算置信区间a=样本均值-z*标准误差b=样本均值+z*标准误差最终置信区间为[a,b]。