此文甚无趣,但这确实是我很早就想写的一个修正贴,长久以来一直把P值错误的理解为H0假设成立的概率,比如在方差分析一文的开始就这么错误的理解。
无论是皇宫御医还是江湖郎中,常常在给女主把脉一番后诊断为怀孕,而且怀孕多久,是男是女一并告知。
某中医小A宣称自己可以通过把脉来诊断胎儿性别为例,现代医学如何验证呢?首先找一定数量的孕妇(比如10个),让小A通过诊脉来判断胎儿的性别,当然具体设计可能涉及到孕龄,如何随机化、诊脉医生的水平以及金标准的问题。假设小A没有这种能力,完全靠猜测,可不可能全部猜中呢?当然可能,只是几率小而已。如果只猜一个孕妇,他猜对的概率为50%,但他猜对了你会认为把脉就可判断胎儿的性别了吗?好像不能这么说,因为猜对的概率太高了。以此类推,两个都猜对的概率为50%×50%=25%;三个全猜对的概率50%×50%×50%=12.5%;四个全猜对的概率6.25%;五个全对的概率3.125%;10个全猜对的概率为0.000976,也就是说全靠猜10个全猜对概率仅为0.0976%。现实的情况是小A通过诊脉全部判断对了,假如小A不具备这种能力,完全靠猜测全部猜对的概率只有0.000976,这个概率太小了,以至于我们怀疑我们的假设(小A不具备这种能力)正确性,而是小A真的能通过诊脉判断孕妇胎儿的性别。这其实就是统计学的基本思想方法。
由于个体变异和抽样误差的存在,统计学上的相等不一定是数值上的绝对相等。但可以肯定的是即使不绝对相等,也应该偏差不大【中心极限定理】。那偏差多大算大呢?统计学上实际上并没有直接回答这个问题,而是首先假设相等(没有差异),在这个前提下计算出 由于偶然因素造成的这个绝对差异 的概率。如果这个概率很小,则我们就有理由怀疑前提假设的正确性,从而支持这个假设的对立面:不相等(有差异)。【对中心极限定理做一下补充:不论总体呈何分布,从该总体中多次抽样得到的统计量大致围绕总体参数中心周围,且呈正态分布。想象一下正态分布中间高两边低的形状,这个定理就是说多次抽样,每次抽样的结果都不会过大的偏离总体参数,偏离越远,几率越小。】
具体来说,首先提出无效假设(Null Hypothesis,也称为零假设,常用H0表示),比如两种药物的疗效没有差异(u1-u2=0)。跟无效假设相对应的是备择假设,比如u1-u2≠0。在无效假设成立的前提下,计算出一个检验统计量(比如t值,卡方值、F值等),然后根据相应的分布可得到 由于偶然因素的原因才出现的 至少这么大的检验统计量的概率(P值)。所以这个P值实际上指的是出现这么大的统计量是由于偶然因素造成的可能性。如果这个P值很小,说明出现这么大的差异只有很小的可能性(概率为P值)是由于抽样误差造成的,而是实实在在地存在这种差异,所以我们就要怀疑所做假设这个前提的正确性,无效假设不正确,那么其对立面备择假设就成立。
这多少看起来有点赌博的味道。赌博嘛,总有输赢,即使赢得次数多也还是会输。我们常将P<0.05作为一个小概率事件,认为不大可能会发生,但概率虽小,现实还是可能会发生的,毕竟即使来自同一总体,由于纯属偶然的原因也是可能会出现绝对差异很大的情况,只是概率小而已。因此我们在拒绝H0的时候,就冒着犯Ⅰ类错误(假阳性,误诊)的风险。那有人就会说我们是不是就可把P临界值设的小一点,比如0.0001,这样Ⅰ类错误不就少了吗?但这个标准如果太苛刻,则会纳入一些本来应该拒绝的阳性人群,也就是犯了另外一种错误:Ⅱ类错误(假阴性,漏诊)。
还要多说一下P值,P值表示的是一种概率,是虽然相等但由于偶然因素造成这么大的绝对差异的概率,并不是H0假设成立的概率,更不能得出P值越小差异越明显/相关性越强之类的结论。