如何理解和学习非参数检验？

2013/03/01评论1,576

非参数检验(Nonparametric tests)是统计分析方法的重要组成部分，它与参数检验共同构成统计推断的基本内容。参数检验是在总体分布形式已知的情况下，对总体分布的参数如均值、方差等进行推断的方法。但是，在数据分析过程中，由于种种原因，人们往往无法对总体分布形态作简单假定，此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑，在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数，因而得名为“非参数”检验。

SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法，其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。

总体分布的卡方检验

例如，医学家在研究心脏病人猝死人数与日期的关系时发现：一周之中，星期一心脏病人猝死者较多，其他日子则基本相当。当天的比例近似为2.8：1：1：1：1：1：1。现收集到心脏病人死亡日期的样本数据，推断其总体分布是否与上述理论分布相吻合。

卡方检验方法可以根据样本数据，推断总体分布与期望分布或某一理论分布是否存在显著差异，是一种吻合性检验，通常适于对有多项分类值的总体分布的分析。它的原假设是：样本来自的总体分布与期望分布或某一理论分布无差异。

二项分布检验

在生活中有很多数据的取值是二值的，例如，人群可以分成男性和女性，产品可以分成合格和不合格，学生可以分成三好学生和非三好学生，投掷硬币实验的结果可以分成出现正面和出现反面等。通常将这样的二值分别用1或0表示。如果进行n次相同的实验，则出现两类（1或0）的次数可以用离散型随机变量X来描述。如果随机变量X为1的概率设为P，则随机变量X值为0的概率Q便等于1-P，形成二项分布。

SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布，其原假设是：样本来自的总体与指定的二项分布无显著差异。

从某产品中随机抽取23个样品进行检测并得到检测结果。用1表示一级品，用0表示非一级品。根据抽样结果验证该批产品的一级品率是否为90%。

单样本K-S检验

K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布，是一种拟合优度的检验方法，适用于探索连续型随机变量的分布。

例如，收集一批周岁儿童身高的数据，需利用样本数据推断周岁儿童总体的身高是否服从正态分布。再例如，利用收集的住房状况调查的样本数据，分析家庭人均住房面积是否服从正态分布。

单样本K-S检验的原假设是：样本来自的总体与指定的理论分布无显著差异，SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。

变量值随机性检验

变量值随机性检验通过对样本变量值的分析，实现对总体的变量值出现是否随机进行检验。

例如，在投硬币时，如果以1表示出现的是正面，以0表示出现的是反面，在进行了若干次投币后，将会得到一个以1，0组成的变量值序列。这时可能会分析“硬币出现正反面是否是随机的”这样的问题。

变量值随机性检验正是解决这类问题的一个有效方法。它的原假设是：总体变量值出现是随机的。

变量随机性检验的重要依据是游程。所谓游程是样本序列中连续出现相同的变量值的次数。可以直接理解，如果硬币的正反面出现是随机的，那么在数据序列中，许多个1或许多个0连续出现的可能性将不太大，同时，1和0频繁交叉出现的可能性也会较小。因此，游程数太大或太小都将表明变量值存在不随机的现象。

例：为检验某耐压设备在某段时间内工作是否持续正常，测试并记录下该时间段内各个时间点上的设备耐压的数据。现采用游程检验方法对这批数据进行分析。如果耐压数据的变动是随机的，可认为该设备工作一直正常，否则认为该设备有不能正常工作的现象。

检验方法

两独立样本的非参数检验

两独立样本的非参数检验是在对总体分布不甚了解的情况下，通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著差异的方法。独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。

SPSS中提供了多种两独立样本的非参数检验方法，其中包括曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验等。

某工厂用甲乙两种不同的工艺生产同一种产品。如果希望检验两种工艺下产品的使用是否存在显著差异，可从两种工艺生产出的产品中随机抽样，得到各自的使用寿命数据。

甲工艺：675 682 692 679 669 661 693

乙工艺：662 649 672 663 650 651 646 652

曼-惠特尼U检验

两独立样本的曼-惠特尼U检验可用于对两总体分布的比例判断。其原假设：两组独立样本来自的两总体分布无显著差异。曼-惠特尼U检验通过对两组样本平均秩的研究来实现判断。秩简单说就是变量值排序的名次，可以将数据按升序排列，每个变量值都会有一个在整个变量值序列中的位置或名次，这个位置或名次就是变量值的秩。

K-S检验

K-S检验不仅能够检验单个总体是否服从某一理论分布，还能够检验两总体分布是否存在显著差异。其原假设是：两组独立样本来自的两总体的分布无显著差异。

这里是以变量值的秩作为分析对象，而非变量值本身。

游程检验

单样本游程检验是用来检验变量值的出现是否随机，而两独立变量的游程检验则是用来检验两独立样本来自的两总体的分布是否存在显著差异。其原假设是：两组独立样本来自的两总体的分布无显著差异。

两独立样本的游程检验与单样本游程检验的思想基本相同，不同的是计算游程数的方法。两独立样本的游程检验中，游程数依赖于变量的秩。

极端反应检验

极端反应检验从另一个角度检验两独立样本所来自的两总体分布是否存在显著差异。其原假设是：两独立样本来自的两总体的分布无显著差异。

基本思想是：将一组样本作为控制样本，另一组样本作为实验样本。以控制样本作为对照，检验实验样本相对于控制样本是否出现了极端反应。如果实验样本没有出现极端反应，则认为两总体分布无显著差异，相反则认为存在显著差异。

多独立样本的非参数检验

多独立样本的非参数检验是通过分析多组独立样本数据，推断样本来自的多个总体的中位数或分布是否存在显著差异。多组独立样本是指按独立抽样方式获得的多组样本。

SPSS提供的多独立样本非参数检验的方法主要包括中位数检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验。

例：希望对北京、上海、成都、广州四个城市的周岁儿童的身高进行比较分析。采用独立抽样方式获得四组独立样本。

中位数检验

中位数检验通过对多组独立样本的分析，检验它们来自的总体的中位数是否存在显著差异。其原假设是：多个独立样本来自的多个总体的中位数无显著差异。

基本思想是：如果多个总体的中位数无显著差异，或者说多个总体有共同的中位数，那么这个共同的中位数应在各样本组中均处在中间位置上。于是，每组样本中大于该中位数或小于该中位数的样本数目应大致相同。

Kruskal-Wallis检验

Kruskal-Wallis检验实质是两独立样本的曼-惠特尼U检验在多个样本下的推广，也用于检验多个总体的分布是否存在显著差异。其原假设是：多个独立样本来自的多个总体的分布无显著差异。

基本思想是：首先，将多组样本数据混合并按升序排序，求出各变量值的秩；然后，考察各组秩的均值是否存在显著差异。容易理解：如果各组秩的均值不存在显著差异，则是多组数据充分混合，数值相差不大的结果，可以认为多个总体的分布无显著差异；反之，如果各组秩的均值存在显著差异，则是多组数据无法混合，某些组的数值普遍偏大，另一些组的数值普遍偏小的结果，可以认为多个总体的分布有显著差异。

Jonckheere-Terpstra检验

Jonckheere-Terpstra检验也是用于检验多个独立样本来自的多个总体的分布是否存在显著差异的非参数检验方法，其原假设是：多个独立样本来自的多个总体的分布无显著差异。

基本思想与两独立样本的曼-惠特尼U检验类似，也是计算一组样本的观察值小于其他组样本的观察值的个数。

两配对样本的非参数检验

两配对样本的非参数检验是对总体分布不甚了解的情况下，通过对两组配对样本的分析，推断样本来自的两个总体的分布是否存在显著差异的方法。

SPSS提供的两配对样本非参数检验的方法主要包括McNemar检验、符号检验、Wilcoxon符号秩检验等。

例：要检验一种新的训练方法是否对提高跳远运动员的成绩有显著效果，可以收集一批跳远运动员在使用新训练方法前后的跳远最好成绩，这样的两组样本便是配对的。再例如，分析不同广告形式是否对商品的销售产生显著影响，可以比较几种不同商品在不同广告形式下的销售额数据（其他条件保持基本稳定）。这里不同广告形式下的若干组商品销售额样本便是配对样本。可见，配对样本的样本数是相同的，且各样本值的先后次序是不能随意更改的。

McNemar检验

是一种变化显著性检验，它将研究对象自身作为对照者检验其“前后”的变化是否显著。其原假设是：两配对样本来自的两总体的分布无显著差异。

分析学生在学习“统计学”课程前后对统计学重要性的认知程度是否发生了显著改变，可以随机收集一批学生在学习“统计学”之前以及学完以后认为统计学是否重要的样本数据（0表示“不重要”，1表示“重要”）。

应该看到：两配对样本的McNemar检验分析的变量是二值变量。因此，在实际应用中，如果变量不是二值变量，应首先进行数据转换后方可采用该方法，因而它在应用范围方面有一定的局限性。

符号检验

符号检验也是用来检验两配对样本所来自的总体的分布是否存在显著差异的非参数方法。其原假设是：两配对样本来自的两总体的分布无显著差异。

首先，分别用第二组样本的各个观察值减去第一组对应样本的观察值。差值为正则记为正号，差值为负则记为负号。然后，将正号的个数与负号的个数进行比较，容易理解：如果正号个数和负号个数大致相当，则可以认为第二组样本大于第一组样本变量值的个数，与第二组样本小于第一组样本的变量值个数是大致相当的，从总体上讲，这两个组配对样本的数据分布差距较小；相反，如果正号个数和负号个数相差较多，则可以认为两个配对样本的数据分布差距较大。

应该看到：配对样本的符号检验注重对变化方向的分析，只考虑数据变化的性质，即是变大了还是变小了，但没有考虑变化幅度，即大了多少，小了多少，因而对数据利用是不充分的。

Wilcoxon符号秩检验

Wilcoxon符号秩检验也是通过分析两配对样本，对样本来自的两总体的分布是否存在差异进行判断。其原假设是：两配对样本来自的两总体的分布无显著差异。

基本思想是：首先，按照符号检验的方法，分布用第二组样本的各个观察值减去第一组对应样本的观察值。差值为正则记为正号，为负则记为负号，并同时保存差值数据；然后，将差值变量按升序排序，并求出差值变量的秩；最后，分布计算正号秩总和W+和负号秩和W-。

多配对样本的非参数检验

多配对样本的非参数检验是通过分析多组配对样本数据，推断样本来自的多个总体的中位数或分布是否存在显著差异。

例如，收集乘客对多家航空公司是否满意的数据，分析航空公司的服务水平是否存在显著差异；再例如，收集不同促销形式下若干种商品的销售额数据，分析比较不同促销形式的效果，再如，收集多名评委对同一批歌手比赛打分的数据，分析评委的打分标准是否一致，等等。

这些问题都可以通过多配对样本非参数检验方法进行分析。SPSS中的多配对样本的非参数检验方法主要包括Friedman检验、Cochran Q检验、Kendall协同系数检验等。

Friedman检验

Friedman检验是利用秩实现对多个总体分布是否存在显著差异的非参数检验方法，其原假设是：多个配对样本来自的多个总体分布无显著差异。

SPSS将自动计算Friedman统计量和对应的概率P值。如果概率P值小于给定的显著性水平0.05，则拒绝原假设，认为各组样本的秩存在显著差异，多个配对样本来自的多个总体的分布有显著差异；反之，则不能拒绝原假设，可以认为各组样本的秩不存在显著性差异。

基于上述基本思路，多配对样本的Friedman检验时，首先以行为单位将数据按升序排序，并求得各变量值在各自行中的秩；然后，分别计算各组样本下的秩总和与平均秩。多配对样本的Friedman检验适于对定距型数据的分析。

Cochran Q检验

通过对多个配对样本的分析，推断样本来自的多个总体的分布是否存在显著差异。其原假设是：多个配对样本来自的多个总体的分布无显著差异。

Cochran Q检验适合对二值品质型数据的分析。如二分的评价：1代表满意，0代表不满意。

Kendall协同系数检验

它也是一种对多配对样本进行检验的非参数检验方法，与第一种检验方法向结合，可方便地实现对评判者的评判标准是否一致的分析。其原假设是：评判者的评判标准不一致。

有6名歌手参加比赛，4名评委进行评判打分，现在需要根据数据推断这4个评委的评判标准是否一致。（见下页具体分析）

如果将每个被评判者对象的分数看做来自多个总体的配对样本，那么该问题就能够转化为多配对样本的非参数检验问题，仍可采用Friedman检验，于是相应的原假设便转化为：多个配对样本来自的多个总体的分布无显著差异。但对该问题的分析是需要继续延伸的，并非站在对6名歌手的演唱水平是否存在显著差异的角度进行分析，而是在认定他们存在差异的前提下继续判断4个评委的打分标准是否一致。

如果利用Friedman检验出各总体的分布不存在显著差异，即各个歌手的秩不存在显著差异，则意味着评委的打分存在随意性，评分标准不一致。原因在于：如果各个评委的评判标准是一致的，那么对于某个歌手来说将获得一致的分数，也就是说，评委给出的若干个评分的秩应完全相同，这就必然会导致各歌手评分的秩有较大的差异。

在数据分析中，了解数据是分析者首先需要做的事情，这里的数据指的是总体数据，而非样本数据，因为了解总体才有普遍性和意义。如何了解总体数据呢？推断性数据分析理论能够解决这个问题，用样本数据来推断总体数据。

参数（均值、中位数、方差、标准差、峰度和偏度等等）是了解数据的窗口，因为这些参数能够将数据的特征量化。数据的特征可以分成三个维度来描述：集中趋势、离散程度和分布形态，每个维度都有相应的参数来表示它们。推断性统计分析理论的任务就是用样本数据的参数来推断出总体数据的参数。这就是参数方法的分析逻辑。

参数方法其实有很多限制，往往假设数据总体服从某些特定分布，例如正态分布，这是因为用样本参数推断总体参数，这个推断过程的桥梁是各种抽样分布，而基本上所有的抽样分布都是基于总体数据服从正态分布这个前提条件得出的。因此，如果数据总体的概率分布情况未知或不服从正态分布，要通过两个样本数据比较它们两个数据总体的差异，参数方法（比较总体参数间差异，例如均值）是缺乏理论假设基础的，分析结果可想而知是不准确的。此时，可以通过非参数检验的方法，比较数据总体间的概率分布差异或秩次差异来说明数据总体之间的差异情况。

非参数方法可以分成两大类：卡方检验和秩次检验。它们适用于不同的数据总体情况，卡方检验用于分类型数据（定类或定序）的频数分析，而秩次检验用于定序数据集合或不服从正态分布的定距数据集合的差异比较。接下来的一段时间，草堂君将会用几篇文章，详细的介绍非参数检验的分析原理和SPSS的分析操作过程。

由此可见，非参数检验其实是无奈之举，往往是在数据类型测度不高（定类或定序），或者数据集合聚集度很低，波动很大，离散得没有规律性（不服从已知概率分布形态）的情况下才会使用。即使得到分析结果，也需要结合具体研究背景，数据情况进行解读。

草堂君首先介绍卡方检验的基础内容：卡方检验的三个主要作用。

卡方检验

卡方检验适用于分类型数据的频数（比率）分析。从功能上来说，可以分为拟合优度（一致性）检验、关联性（独立性）检验和构成比（构成比率）检验。卡方检验的统计量可以表示为：

拟合优度检验，又可以称为一致性检验。它的目的是判断单个分类变量的k个水平的频数分布是否与理论分布相同和一致。由此可见，拟合优度这个名字所要表达的含义是观察频数拟合期望频数的程度有多好。例如，根据遗传学理论，某两种粉色花杂交后，后代的花朵颜色比例应该为白：粉：红=1:2:1，在进行杂交实验后，获得了100株后代，结果发现花朵的颜色结果为白：粉：红=21:61:18，那么可以用卡方检验来验证遗传学理论是否正确，也就是验证实验结果是否与遗传学理论结果有显著性差异。

查卡方分布表，显著性0.05，自由度3-1=2的临界值为5.99,；5.02<5.99，所以可以认为期望频数与观测频数之间没有显著性差异，即遗传学理论可以被实验结果验证。

关联性（独立性）检验，又称为独立性检验。它的目的是考察两个分类变量之间是否相关（独立），如果它们之间不相关，那么由两个分类变量组成的列联表，列联表内每个单元格中的频数分布是随机而没有规律的，反之，则是服从一定比率的存在。例如，某大型餐饮连锁店想要考察员工薪资与服务质量之间是否存在相关性，公司随机抽取了100名顾客对服务他们的服务员的服务质量进行打分，打分结果分成三类：服务极佳，服务较好，服务差，然后与这些员工的薪资情况做成下面的列联表：

括号内的是期望频数，期望频数的计算公式如下，以第一个单元格的期望频数为例说明：

当显著性定为0.05，自由度为(3-1)*(3-1)=4时，卡方界限值等于9.49，因为18.658>9.49，所以认为期望频数与观测频数之间有显著性差异，也就是说服务质量与薪资高低这两个分类变量之间是存在相关性的。

构成比检验，考察的是多个总体在某个分类变量的各个水平上，它们的频数分布是否有显著性性差异。例如，考察不同年龄层人群对信用卡使用态度的差异，某次问卷调查的数据结果如下图所示：

括号内的是期望频数，期望频数的计算公式如下，以第一个单元格的期望频数为例说明：

当显著性定为0.05，自由度为(3-1)*(3-1)=4时，卡方界限值等于9.49，因为18.658>9.49，所以认为期望频数与观测频数之间有显著性差异，也就是说不同年龄层的人群对于信用卡消费的态度构成比是有显著性差异的。

从计算过程可以知道，其实关联性检验和构成比率检验的计算过程是完全相同的，差异在于结果的解释侧重点不同。关联性分析的两个分类变量都为表示指标的变量，因此考察的是两个指标变量是否相关；而构成比率检验的两个分类变量，一个是用于群体分类的分组变量，一个为指标分类变量，因此，结果应该解释为不同群体类别在指标变量上的构成比率是否存在差异。

发表评论