因变量为无序多分类资料,或者因变量虽为有序多分类但不满足比例优势假定(平行性检验P>0.05),可采用无序多分类的logistic回归进行分析。当然当结局变量无序,自变量只有一个且为分类变量时,可以直接采用卡方检验;结局变量有序,自变量只有一个且为分类变量时,可以直接采用非参数检验。
以因变量为4水平(第4水平为参照水平),自变量有m个为例,模型可以表示为:
显然π1+π2+π3+π4=1,如希望比较1和2,可以将相应的两个公式相减即可得到相应的函数,同理可以比较1和3,或者2和3。当然我们也可以直接对参照水平进行修改。
1、数据录入
2、数据加权:Data>>Weight Cases…,将[频数]进行加权
3、多变量回归分析:Analyze>>Regression>>Multinomial Logistic…
l 因变量:获得途径
l 因素:社区、性别
【模型】:可以指定分析的模型,默认是只分析主效应,也可以进行全因素分析(主效应+交互作用),当然也可以进行自定义分析。选中自定义/逐步(Custom/Stepwise)后,除了可以自定义模型外,还可以实现变量的筛选,类似于二分类logistics回归中的Block和Method。本例取默认的主效应分析。
【收敛准则】:主要对迭代进行设置。
【案例处理概要】:分析示例的基本情况。
【模型拟合信息】:与只含常数项的初始模型相比,最终模型的AIC(Akaike信息准则)、BIC(贝叶斯信息准则)、负2倍的对数似然值(-2LL)均有下降。-2LL值从80.877下降至36.821,下降了44.056(卡方值),似然比卡方检验具有统计学意义(P<0.001),说明模型纳入性别和社区两个变量中至少有一个偏回归系数不为0。
【拟合优度检验】:显示Pearson拟合优度检验和Deviance拟合优度检验结果。此两种方法实际是检验当前模型预测值与样本实测值的比较,两者结果P值均大于0.05,表示拟合良好。但要注意这两种方法对自变量的样本量有一定要求,当自变量较多或者含有连续变量时一般不采用这两种方法的检验结果。
【伪R2】:输出三种伪决定系数。对分类数据的统计分析,不需要过于在意这三种伪决定系数过低的问题。
【似然比检验】:表格显示最终模型的AIC、BIC、-2LL值(与【模型拟合信息】表的结果一致),以及简约模型(去掉某个自变量效应后的模型)的AIC、BIC、-2LL值,卡方检验统计量为简约模型与最终模型的-2LL差值。结果显示社区和性别对模型的贡献均有统计学意义。
【参数估计】SPSS中因变量默认以取值高水平为参照水平(本例为社区宣传),如希望将其他取值水平作为参照水平,可在数据中修改因变量各水平的赋值,或者通过[参考类别(Reference Category…)]来指定。自变量也默认取值水平高的为参照水平,也可以修改自变量各水平的赋值来改变参照水平,如果将变量作为协变量纳入分析则低水平会被默认为参照水平。因此本例中社区B(社区=1)和女(性别=1)为参照水平,其参数值为0,一般是研究者不感兴趣的参数,即冗余参数。
从结果来看,社区A(社区=0)的回归系数为负值,P=0.001<0.05,OR=0.370。具有统计学意义表明社区A回归系数不为0(社区B的回归系数为0)。回归系数为负,表明与社区宣传相比,社区A(比社区B)更不愿意通过传统大众传媒获得健康知识,或者说社区A更愿意通过社区宣传获得健康知识;OR=0.370,即相比社区宣传,社区A通过传统大众传媒获得健康知识是社区B的0.37倍,或者更符合表达逻辑的说法是社区A通过社区宣传获得健康知识是社区B的2.70倍(1/0.370),社区B通过传统大众传媒获得健康知识是社区A的2.70倍。当然严格来说OR的表达应该是:社区B选择传统大众传媒与选择社区宣传的比值 是 社区A相应比值的2.70倍。
如想比较传统大众媒介与网络,可直接将相应的模型方程相减,
大体可以判断与网络途径相比,社区A更不倾向传统大众传媒(也就是说更倾向于网络),男性更倾向传统大众传媒,但是否有统计学意义尚需进一步检验。可在多变量回归对话框中,通过[参考类别(Reference Category…)]将参考类别自定义为网络(Custom Value=2),可获得如下结果,同上述计算结果一致,解读略。
另外,自变量为多分类时也要遵循同进同出的原则。
【观测频数和预测频数】:较为接近,拟合良好。
—— END ——