透彻理解卡方检验

105次阅读
没有评论

共计 2422 个字符,预计需要花费 7 分钟才能阅读完成。

在非医学统计的大多数应用统计课程中,间断变量(Categorical Variables)统计方法一直是一个相对被轻视的部分,而卡方检验作为一种重要的间断变量关系的假设检验方法,也常常被比较简略和机械化地介绍和讲解。我在过去学过很多次卡方检验,一般卡方检验的讲解内容会把步骤写得很详细,但缺乏引导你理解每一步为什么这样做的材料,导致我每次学完一阵子后都会忘记。今天这篇文章,我就来讲讲卡方检验的步骤,以及每一个步骤后的原因,帮助大家透彻地理解卡方检验!

卡方检验解决的问题类型

我们首先来看卡方检验用于什么类型的问题。先给出本篇文章所要使用的例子,假如我们现在想调查个体收入水平是否会影响其对税收上调政策的态度(赞同或反对)。这时,我们一方面可以将收入水平视为连续变量,将对政策的态度视为二分变量,拟合一个logistic回归模型;另一方面,我们也可以将人群分为低收入,中等收入和高收入三个人群,也就是将收入水平视为类别变量(水平数为3),这时我们就需要卡方检验来检验两个Categorical Variables之间是否存在联系(association)了!

所以,只要我们有两个类别变量,并且我们想要调查这两个类别变量是否独立,卡方检验就能够帮助我们完成这样的任务。下面我们来看看当我们谈论两个类别变量独立的时候,从数学的角度看,我们到底在谈论什么。

两变量相互独立

假如A代表上述的收入水平,并且A会有三个取值,代表三种收入水平:

透彻理解卡方检验

我们分别用P(A=a)来表示某个个体为对应收入水平的概率。举个例子,假如P(A=1)=0.3,就意味着在总体中抽取一个个体,该个体低收入的概率为30%。在以下内容中,我会以P(A)作为P(A=a)的简写。

同理,我们可以构建如下的态度变量B

透彻理解卡方检验

同理,我们也可以P(B=b)来表示某个个体对税收上调政策赞同或反对的概率。在以下内容中,我会以P(B)作为P(B=b)的简写。

在概率论中,假如变量AB独立,我们可以得出:

透彻理解卡方检验

上述式子可以进一步化简为:

透彻理解卡方检验

化简后的式子是我们在卡方检验中需要用到的式子,所以请大家牢记!对于上述式子有疑惑的读者可以学习基础的概率论,也可以参考我之前写的一篇关于独立的文章(《【直观数学】如何理解两事件间的独立关系》)。如果没有问题的话,我们可以进入到卡方检验原理与步骤的主体介绍部分!

卡方检验原理

基于上述例子,我们现在给出相关调查的详细数据:

低收入 中等收入 高收入 总人数
支持 213 203 182 598
反对 138 130 154 402
351 313 336 1000

我们现在想要验证的问题是:个体对税收上调政策的态度是否独立于其收入水平。严格地讲,这时我们的零假设是:个体对税收上调政策的态度独立于其收入水平;备择假设是:个体对税收上调政策的态度不独立于其收入水平。结合假设检验的基本逻辑,我们可以先构建假如零假设为真下的“理想情况”,再计算现实情况(所观测数据)与这一“理想情况”之间的差距,进而得出结论

通过第二部分,我们知道当零假设为真时,上述化简后的式子成立。通俗地说,就是某个个体居于某个收入水平并且持特定态度的概率,等于其居于某个收入水平的概率乘以其持特定态度的概率。举个例子,假如个体对税收上调政策的态度独立于其收入水平,则某个个体为中等收入并且对税收上调政策持反对态度的概率,将会等于其为中等收入的概率乘以其对税收上调政策持反对态度的概率。

如何估计P(A),也就是某个体为特定收入水平的概率呢?我们可以通过受调查人群中每个收入水平人数所占比例来估计。因此,我们可以做出如下运算与估计:

透彻理解卡方检验

同理,为了估计P(B),也就是某个体对税收上调政策态度的概率,我们同样可以通过受调查人群中两种态度人群所占比例来估计:

透彻理解卡方检验

现在我们已经拥有了所有P(A)P(B)的估计值,假如零假设为真(个体对税收上调政策的态度独立于其收入水平),我们就可以进行如下计算:

透彻理解卡方检验

完成上述诸多计算后,让我们再回过头来回忆我们做假设检验的基本逻辑,刚才的计算给出了当零假设为真时某个个体收入水平与态度为特定值的“理想概率”,基于这些“理想概率”,我们可以构建一个描绘“理想情况”的数据表:

低收入 中等收入 高收入 总人数
支持 209.9 187.2 200.9 598
反对 141.1 125.8 135.1 402
351 313 336 1000

现在,我们需要衡量现实情况(所观测数据)与这一“理想情况”之间的差距,所以我们将它们放在同一个表格中,括号中为“理想情况”的数据:

低收入 中等收入 高收入 总人数
支持 213 (209.9) 203 (187.2) 182 (200.9) 598
反对 138 (141.1) 130 (125.8) 154 (135.1) 402
351 313 336 1000

我们按单元格计算现实情况和“理想情况”的差距,我们将现实情况中第i行第j列个单元格用xij表示,将“理想情况”中第i行第j列个单元格用mij来表示,那么我们将会通过如下算式来衡量两个值之间的差距:

透彻理解卡方检验

这个公式有两点需要注意,首先,二者差值被平方了,所以不管是正的差异还是负的差异,在这个公式中我们都是一视同仁的;其次,我们在分母中除以了理想情况值,所以我们计算的是“相对差异”,这一操作能够保证我们计算出来的差异不随样本量的增大而增大

在通过上述公式依此计算出每个“现实单元格”与“理想单元格”之间的差距后,我们可以将其加和,即得出了卡方检验中的检验统计量——卡方值:

透彻理解卡方检验

t检验中的t值服从特定自由度的t分布,F检验中的F值服从特定自由度的F分布一样,在满足特定假设后,卡方检验中的卡方值也将服从df=(j-1)(k-1)的卡方分布,其中jk分别对应两类别变量的水平数。所以我们可以计算得出当前例子下的自由度df=2,进一步地,我们可以通过观察当前计算出来的检验统计量在df=2的卡方分布所处的位置,来决定是否需要拒绝零假设……

最后判断是否能够拒绝零假设的部分我在这里就不再赘述了,其属于假设检验的内容。

正文完
 0
评论(没有评论)