前言、什么是卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
一、四格表资料的卡方检验
例1.两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
表1
(52 19 39 3) 这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)。从该资料算出的两组发癌率分别为73.24%和92.86%,两者的差别可能是抽样误差所致,亦可能是两组发癌率(总体率)确有所不同。这里可通过卡方检验来区别其差异有无统计学意义,检验的基本公式为:
式中A为实际数,以上四格表的四个数据就是实际数。T为理论数,是根据检验假设推断出来的;即假设这两组的发癌率本无不同,差别仅是由抽样误差所致。这里可将两组合计发癌率作为理论上的发癌率,即91/113=80.3%,以此为依据便可推算出四格表中相应的四格的理论数。以表1资料为例检验如下。
检验步骤:
1.建立检验假设:
H0:π1=π2;H1:π1≠π2;α=0.05
2.计算理论数(TRC),计算公式为:
TRC=nR.nC/n
式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。
第1行1列: 71×91/113=57.18
第1行2列: 71×22/113=13.82
第2行1列: 42×91/113=33.82
第2行2列: 42×22/113=8.18
以推算结果,可与原四项实际数并列成表2:
表2
因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=57.18),则其余三项理论数都可用同行或同列合计数相减,直接求出。
3.计算卡方值按公式代入
4.查卡方值表求P值
在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到,而本题卡方=6.48即卡方>,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组发癌率有差别。
通过实例计算,读者对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零,而卡方永远为正值。又因为每一对理论数和实际数都加入卡方值中,分组越多,即格子数越多,卡方值也会越大,因而每考虑卡方值大小的意义时同时要考虑到格子数。因此自由度大时,卡方的界值也相应增大。
二、四格表卡方值的校正
卡方值表是数理统计根据正态分布中的定义计算出来的。是一种近似。在自由度大于1、理论数皆大于5时,这种近似很好;当自由度为1时,尤其当1<T<5,而n>40时,应用以下校正公式:
例2.某医师用甲、乙两疗法治疗小儿单纯性消化不良,结果如表3.试比较两种疗法效果有无差异?
表3
从表3可见,T1.2和T2.2数值都<5,且总例数大于40,故宜用校正公式检验。步骤如下:
1.检验假设:
H0:π1=π2;H1:π1≠π2;α=0.05
2.计算理论数:(已完成列入四格表括弧中)
3.计算卡方值:应用校正公式运算如下:
查卡方界值表,,故卡方<,P>0.05。按α=0.05水准,接受H0,两种疗效差异无统计学意义。
如果不采用校正公式,而用原基本公式,算得的结果卡方=4.068,则结论就不同了。
如果观察资料的T<1或n<40时,四格表资料用上述校正法也不行,可参考预防医学专业用的医学统计学教材中的Fisher精确检验法直接计算概率以作判断。
三、行×列表的卡方检验
适用于两个组以上的率或百分比差别的显著性检验。其检验步骤与上述相同,简单计算公式如下:
式中n为总例数;A为各观察值;nR和nC为与各A值相应的行和列合计的总数。
例3.北方冬季日照短而南移,居宅设计如何适应以获得最大日照量,增强居民体质,减少小儿佝偻病,实属重要。胡氏等1986年在北京进行住宅建筑日照卫生标准的研究,对214幢楼房居民的婴幼儿712人体检,检出轻度佝偻病333例,比较了居室朝向与患病的关系。现将该资料归纳如表4作行×列检验。
表4
该表资料由2行4列组成,称2×4表,可用行×列卡方公式检验。
(一)检验步骤
1.检验假设
H0:四类朝向居民婴幼儿佝偻病患病率相同;H1:四类朝向居民婴幼儿佝偻病患率不同;α=0.05
2.计算卡方值
3.确定P值和分析
本题v=(2-1)(4-3)=3,据此查卡方界值表:
(二)行×列表卡方检验注意事项
1.一般认为行×列表中不宜有1/5以上格子的理论数小于5,或有小于1的理论数。当理论数太小可采取下列方法处理:①增加样本含量以增大理论数;②删去上述理论数太小的行和列;③将太小理论数所在行或列与性质相近的邻行邻列中的实际数合并,使重新计算的理论数增大。由于后两法可能会损失信息,损害样本的随机性,不同的合并方式有可能影响推断结论,故不宜作常规方法。另外,不能把不同性质的实际数合并,如研究血型时,不能把不同的血型资料合并。
2.如检验结果拒绝检验假设,只能认为各总体率或总体构成比之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。