一、相关分析方法的选择及指标体系
(一)两个连续变量的相关分析
1、Pearson 相关系数
最常用的相关系数,又称积差相关系数,取值-1 到 1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下:
(1)两变量呈直线相关关系,如果是曲线相关可能不准确。
(2)极端值会对结果造成较大的影响
(3)两变量符合双变量联合正态分布。
2、Spearman 秩相关系数
对原始变量的分布不做要求,适用范围较 Pearson 相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较 Pearson 系数低。
(二)有序分类变量的相关分析
有序分类变量的相关性又称为一致性,即行变量等级高的列变量等级也高,如果行变量等级高而列变量等级低,则称为不一致。
常用的统计量有:Gamma、Kendall 的 tau-b、Kendall 的 tau-c 等。
(三)无序分类变量的相关分析
最常用的为卡方检验,用于评价两个无序分类变量的相关性。根据卡方值衍生出来的指标还有列联系数、Phi、Cramer 的 V、Lambda 系数、不确定系数等。
OR、RR 也是衡量两变量之间的相关程度的指标。
二、SPSS 相关操作
SPSS 的相关分析散布在交叉表和相关分析两个模块中。
(一)交叉表过程
以上的指标很全面,解释如下:
(1)「卡方」复选框:为常用的卡方检验,适用于两个无序分类变量的检验。
(2)「相关性」复选框:适用于两个连续性变量的相关分析,给出两变量的 Pearson 相关系数和 Spearman 相关系数。
(3)「有序」复选框组:包含了一组反映有序分类变量一致性的指标,只能用于两变量均为有序分类变量的情况。
(4)「名义」复选框组:包含一组分类变量相关性的指标,有序和无序分类时都可使用,但变量为有序时,检验效能没有「有序」复选框组中的统计量高。
(5)Kappa:为内部一致性系数。
(6)风险:给出 OR 或 RR 值。
(7)McNemar:为配对卡方检验。
(二)「相关」过程
如下图:
可以计算Pearson、Kendall的tau-b、Spearman三种相关系数。