使用和解释P值的“六原则”

2016/03/26210,206

2014年2月，美国曼荷莲学院（Mount Holyoke College）数学与统计学教授George Cobb在美国统计学会（American Statistical Association, ASA）的论坛上提出了两个问题：

问：为什么这么多学校都在教“P=0.05”？

答：因为科学界和期刊编辑现在还用这个。

问：为什么这么多人还在用“P=0.05”？

答：因为学校就是这么教的。

在阅读了太多不可重复或者包含统计错误的论文（或者同时出现）后，ASA决定行动起来：2016年3月7日，ASA正式发表了使用和解释P值的“六原则”（Wasserstein, R. L., & Lazar, N. A. (2016). The ASA's statement on p-values: context, process, and purpose. The American Statistician）（点击阅读原文，或至 http://amstat.tandfonline.com/doi/pdf/10.1080/00031305.2016.1154108 下载该论文）。

我们使用P值来检测组间或方法间的差别、评估目标变量间的关系，等等。但ASA指出，P值被广泛误用了。

ASA对这六个原则进行了具体的阐释：

1. P值可以指示数据与一个给定模型的不相容程度。（P-values can indicate how incompatible the data are with a specified statistical model.）

我们基于一系列的假设建立的模型称为原假设；我们同时还会建立零假设（null hypothsis），即指某种我们想要检测的效应不存在，例如两组无差，或者某个因子与结果无关。P值越小，说明数据与零假设之间越不相容。这里的不相容，可以解释为对零假设的存疑程度。

2. P值不能衡量某假设为真的概率，也不能衡量数据仅由随机因素造成的概率。（P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.）

尽管研究者常常希望计算出零假设是否为真，或是算出观测结果仅由随机事件造成的概率，但P值的作用并不是这个，P值只解释数据与假设之间的关系，它并不解释假设本身。

3. 科学结论、商业决策或政策制定，不应只取决于P值是否达到了一个给定标准。（Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. ）

为了给某种科学主张或论断提供佐证而把数据分析或科学评估[我怀疑“还原”这个词是不是有点不准确，但我可以理解，“简化”？]简化成一种机械性的规则（例如p<0.05），这会导致错误的结论和糟糕的决定。一个结论的正确与否并不会因为研究者算出的P值大于还是小于0.05而改变[虽然原作很绕，但这句话吐槽还是很清楚的，它吐槽的是一种是否通过了类似0.05之类的二元类的方法：后文他的观点是如果用P值的话，应该给出具体的大小。如果你改成“P值大小”，实际上把槽点扭曲了。]。研究者需要将很多因子纳入考虑来作出科学推断，包括研究设计、测量的质量、与研究对象有关的外部证据，以及分析数据时使用的假设的合理性等。决策者常常需要根据研究结果作出“做”或“不做”的决定，但p值本身不能决定决策的正确与否。科研界将显著性标准（例如p<0.05）作为发表科学发现（暗示了其真实性）的“许可证”广泛使用，然而这却扭曲了科研的过程。

4. 研究者需对研究进行完整的报告、保证透明度，才能做出合理的推论。（Proper inference requires full reporting and transparency. ）

研究者不应选择地报道P值和相关的统计分析。某项研究可能使用了好几种分析方法，而研究者只报告其中的一部分（特别是那些符合标准的），这就使得P 值难以解释。一旦研究者根据统计结果选择性地展示相应的方法，而读者对此并不知情，结果的有效性就打了折扣。研究者应该展示研究过程中检验过的假设的数量、数据收集的方法、所有使用过的统计方法和相应的P值。

5. P值或统计显著性并不能衡量效应的大小和结果的重要性。（A p-value, or statistical significance, does not measure the size of an effect or the importance of a result. ）

某项个结果的统计显著性并不代表其在科学、人文的或者经济上的重要性。P值小并不意味着效应更重要，P值大也不代表不重要或没有效应。无论某个效应的影响有多小，当样本量足够大或测量精度足够高时，总能得到小的P值。对于相同的效应，当测量精度不同时，得到不同的P值也会不同。

6. P值本身并不能衡量模型或假设的可信度。（By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.）

研究者应该意识到，在没有一定的背景时，P值能提供的信息非常有限。接近0.05的P值只能为反驳零假设提供非常弱的证据。同样的，相对大的P值也不一定意味着证据就偏向支持零假设，还是有很多其他的假设可能导致现有的结果。因此，当其他方法适用时，研究者对数据的分析不应止于P值分析。

“Stil Not Significant.”

为进一步解读“六原则”的意义，关注论文撤稿的博客retractionwatch.com采访了ASA执行主任Ron Wasserstein。

R = retractionwatch.com

W = Ron Wasserstein

R：为什么现在发表“六原则”？是否是因为科学发展到现在阶段让P值误用成为了一个特别急迫的问题？

W：我们是被现在持续加剧的可重复性危机以及人们将此归咎于统计方法的现象刺激了。学术期刊《基础和应用社会心理学》（Basic and Applied Social Psychology）的编辑对于P值的误用和误解感到如此的无力，因此在2015年决定禁用这一指标。这一做法更证实了对P值的信任危机已经到来，ASA不能再坐视不管。

R：部分原则看起来非常直白，但我对第二条有点疑问。我常常听说P值可用来估计数据是否仅由随机过程产生，为什么这是一种错误的想法？

W：让我们设想一个简单的情境来解释这样的想法意味着什么。假设出现了一种针对某严重疾病的新疗法，研究者宣称这比已有的疗法更有效。我们选取2个情况类似的病人配对，一共得到5对这样的病人，给每对中的两个病人随机分配新、旧两种疗法。零假设(无效假设)是指新旧两种疗法在5组内都有50：50的概率更有效。假如零假设为真，新疗法在5个组中都表现出更好的概率是（1/2）5=1/32,约等于0.03.如果在实验中，每组接受新疗法的病人都表现的更好，我们就会得到0.03的p值。它代表的是这样一种概率：当新旧两种疗法实际效果相同时，实验结果显示新疗法全比旧疗法好的概率（即假阳性的概率，译者注）。[如果加注的话这里就很合适]但这不是新旧两种疗法效果相同的概率。

这可能很微妙，但绝非诡辩。这是一个非常常见的逻辑谬误：为了让结论为真，你不得先不假定其为真，然后才能得到这个结论。如果你掉进了这个逻辑谬误，你得到的结论会变为“只有3%的概率这两种疗法疗效相当”，然后认为新疗法有97%的概率更好。你就犯了一个经典并且非常严重的错误。

R：在研究者使用和解释P值时，他们犯的最大的错误是什么？

W：有几种错误特别普遍，并且导致了很大的问题。刚刚提到的那个就很常见。另一个是常见的误解是：计算出了较大的P值，就认为零假设为真。还有其他的误解，但引起我们更大重视的是误用的问题，特别是研究者把统计显著性作为科学价值的评价标准。这种误用是糟糕的决策和不能重复的研究的始作俑者之一，最终不仅会危害科学的进步，还会摧毁公众对科学的信任。

R：有没有哪些领域比其他领域出的错更多？

W：据我所知还没有人研究过这个问题。我感觉所有科学领域都有诸多明显的错误，但也有研究非常漂亮地使用了统计学方法。但总体来说，在那些对被试者或试验单位进行了多重测量的研究中，P值更易被误用。这种测量方法会给予研究者成为“P值黑客”（即找到一种方法获得满意的P值）的机会，但这种机会却不能给科学本身带来任何益处。

R：你能否详细解释一下第四条——“研究者需对研究进行完整的报告、保证透明度，才能做出合理的推论”？

W：这当然有很多可说的，但简而言之，从统计学的角度，这意味着要追踪和报道关于你对数据作的所有决定，包括数据收集的设计和执行过程，以及你在分析数据过程中做的一切。你是否以某种方式进行了跨组平均或合并了组间数据？你是否用数据来决定检测或控制哪个变量，或者在最终的分析中包括和删除了某个变量？你是否不断地增减变量，好让自己的回归模型和系数通过了某个显著性标准？这些决定，以及所有基于数据本身的决定都需要被包括在内。

R：在随ASA的声明一起发表的内容里，你提到希望学术界能够进入“后p<0.05”时代。这指的是什么呢？如果不使用P值的话，我们应该用什么代替它？

W：在后p<0.05时代，科学论证不应基于P值是否足够小。效应量和置信区间都应被郑重对待。统计结果应被理解为连续、而非二元的。当用这种方法考虑问题时，面对P值，我们应该看到一个数字，而不是一个不等式，如p=0.0168而非p<0.05。所有与推断有关的假设都应该被检测，包括和数据选择和分析方法有关的决定。在后p<0.05时代，数据分析仍然很重要，但没有一种数值，而且必然不是P值，能够代替统计思考和科学推理。

R：还有什么要补充的么？

W：我们很快就会知道这份声明是否能达到它的目的。如果是的话，期刊将不再把统计显著性作为是否接受论文的标准。取而代之、被接受的论文的特征应是：试验设计、执行和分析被清晰细致地描述出来；结论建立在有效的统计解释和科学论点之上；报告得足够全面、透明，能够被其他人严格的审查。我认为这是杂志编辑想要做的，有人已经在做了，但也有一些人这被看起来简单的统计显著性所诱惑。

呐，如果你还对“P值到底是啥”这个问题有点晕，

这里有一个超级好懂的解释：

P值大小指示的是假阳性的出现概率，

代表了研究者对假阳性的容忍度。

“P≤0.05 reflects our level of tolerance for false-positive results."

来自微信科研圈：http://mp.weixin.qq.com/s?__biz=MzA5NDkzNjIwMg==&mid=403201459&idx=1&sn=2fac73b0719a9c5eaf54d81253c44242&scene=2&srcid=0323XZOwcIhfeo7tM3ar824C&from=timeline&isappinstalled=0#wechat_redirect

发表评论