前面我们讲了方差分析,方差分析的应用场景是什么?不记得的同学可以回头看看。当我们要比较两个或多个组的均值是否存在显着差异时,可以使用方差分析。请注意,当我们提到两个或多个组之间的均值比较时,我们使用方差分析。想想什么类型的数据可以做平均?是否可以只计算数值数据的平均值?这就是所谓的连续变量。那么如果我们要比较两个或多个组之间的分类变量,是否有显着差异?这时候就不能用方差分析了,需要用到专门用于分类变量比较的卡方检验。接下来,让我们仔细看看卡方分析是如何进行的。现在,为了验证吸烟与肺病的关系,某研究机构通过抽样调查得到了以下数据:我们先假设吸烟与肺病之间没有必然联系,即吸烟者的比例在人群中不论是否患有肺部疾病的人数应等于吸烟者占总人数的比例,即33%。如果每组吸烟者的比例为33%,我们来看一下每组人数的分布情况。从上表我们可以看出,肺部疾病患者中吸烟者的比例为48%,明显高于无肺部疾病患者中吸烟者的比例(20%)。但这是否直接表明两者之间存在显着差异?我们需要验证它是否显着?如何验证?通过对比前面两张表,我们可以发现每组的人数是不一样的。造成差异的原因主要有两个,一个是抽样误差造成的,另一个是我们的假设是错误的,即组间数据存在固有差异。那么我们如何确定它是哪种错误呢?这时候就需要引入卡方检验。Ai是实际频率(出现次数),Ti是理论频率。我们将第一个表中各组的值称为实际频率,将第二个表中各组的值称为理论频率。卡方检验的值用于反映理论频率与实际频率之间的差异。理论频率与实际频率的差异越大(分子越大),卡方检验的值越大;否则,卡方检验的值越小。如果实际频率和理论频率的差异只是因为采样误差,卡方检验的值应该很小,因为我们相信我们的采样还是比较合理的,所以误差不会特别大;如果卡方检验值太大,则不太可能被错误解释。只能说明原假设不成立,即组间数据存在差异。我们在上面的描述中用了两个词,卡方值小或者太大,什么样的卡方值算小,什么样的卡方值算大?这时候就需要引入我们的卡方分布,如下图,和Z检验中的正态分布是一样的。上图中的n是自由度,不同的自由度对应的卡方分布是不同的。自由度与特征维度有关,自由度=(行数-1)*(列数-1),我们上面的例子是两行两列的数据,所以最终的自由度为1、我们知道了自由度之后,就可以通过卡方分布的临界值表,找到这个自由度对应的不同的边界值和P值。从下图可以看出,当自由度为1时,临界值3.84对应的P值为0.05,即卡方值大于3.84时,右侧的面积为小于0.05,可以认为是小概率事件,不可能发生。卡方分布的临界值表:https://wenku.baidu.com/view/...我们计算上面提到的两个表的卡方值:计算出的卡方值60.53远大于3.84,所以可以认为我们的原假设不成立,即患肺病与是否吸烟有关。以上就是卡方检验的一个整体过程。
