pearson相关系数是最经常使用的相关系数,一般情况下我们会毫不犹豫的选择它,而大部分情况下都没有考虑到数据是否符合它的假设,如下所示:
1 两个变量间有线性关系
2 变量是连续变量
3 变量均符合正态分布,且二元分布也符合正态分布
4 两变量独立
第一个假设是必须的,虽然有很多主观的因素在里面,但一般从散点图上能够大致看出来.检验变量是否符合正态分布是必须的一步,其他两个条件都不好界定.正态性检验可以通过R软件中MASS包中的单变量正态性检验函数shapiro.test()和mvnormtest包中的多元分布正态性检验函数mshapiro.test()进行.当然,R中还有其他的函数也可以用于正态性检验.
线性回归和相关密切相关,它的假设条件有:
(see http://www.duke.edu/~rnau/testing.htm)
1 自变量与因变量间存在线性关系;
2 数据点之间独立
3 自变量之间无共线性,相互独立.
4 残差独立,等方差,且符合正态分布.
因变量和自变量之间的线性关系可以通过因变量和自变量间的散点图看出来,或者通过曲线回归来检验线性关系.
数据点间的独立性可以通过dwtest(package lmtest)等进行检验
自变量间的共线性可以通过kappa函数进行分析;
残差的等方差性可以通过White's test进行检验;
残差的正态分布分布可以通过shapiro.test(),QQ图等工具来检验.
此外,outlier对于线性回归的影响较大,可以事先通过检验去除掉一些outlier点,如Cook统计量,Dffits准则等,或者通过残差分布图直接看出来.在R中函数influence.measures()可以对得到的线性回归方程进行outlier检验,其中包括多个统计量,可以综合分析最后进行取舍.
总之,不管是使用pearson相关系数还是进行线性回归,我们都不能不考虑数据本身的特点随便进行分析.