多重假设检验中的p值校正

在生物学特别是基因组学的研究工作中,经常会遇到多重假设检验(multiple testing)的问题;此时,得到的原始p值需要进行校正后才能使用,那么哪种校正方法更加适合自己的研究工作呢?p-values, false discovery rates(FDR) 和 q-values有什么不同?它们分别代表什么意义?

对于统计科班的同学来说,这不过是小菜一碟;但对于纯生物出身的同学来说,别说去看公式了,光是听听就觉得头大!不过幸运的是,有牛人(William S Noble)了解我们的苦衷,于是一篇nature biotechnology的文章诞生了——《How does multiple testing correction work?》。

这片文章不长,只有3页,用不了多长时间就可以看完。更加令人高兴的是,全篇没有一个让人头大的公式;了解基本的统计学知识、特别是p值的相关概念之后,阅读这片文章就不会有太大的困难了。

作者以一个生物学例子贯穿全篇,这个例子对于大多数生物专业的同学来说都非常容易理解——在人的21号染色体上寻找CTCF(一个高度保守的锌指DNA结合蛋白)的潜在结合位点。作者先介绍了零假设(null hypothesis),进而引出了p-value的概念。之后,解释了为什么原始p值不能够直接使用,从而过渡到p值校正的话题。在这一部分,作者层层深入,以简洁明了的语言介绍、解释了Bonferroni adjustment、false discovery rate (FDR)、q-value和local FDR的概念、由来、意义等基本但非常重要的知识。最后作者给出了实际应用时的指导建议,并以点睛之笔概括总结了全文中的要点。

如果你的工作涉及p值的校正、FDR、q值等概念,这篇文章绝对胜任引你入门的角色(但绝不仅限于此!)。

详细内容请阅读原文:

How does multiple testing correction work?

William S Noble1

When prioritizing hits from a high-throughput experiment, it is important to correct for random events that falsely appear significant. How is this done and what methods should be used?

全文链接:http://www.nature.com/nbt/journal/v27/n12/full/nbt1209-1135.html

本文来自:

http://yixf.name/2011/01/11/%E3%80%90%E6%96%87%E7%8C%AE%E6%8E%A8%E8%8D%90%E3%80%91%E5%A4%9A%E9%87%8D%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C%E4%B8%AD%E7%9A%84p%E5%80%BC%E6%A0%A1%E6%AD%A3/

评论  2  访客  2
    • jetesen 0

      很好的一篇文章,顶一个

      • banban 0

        支持一下,去看看这篇文章。很喜欢这个网站

      发表评论

      匿名网友

      拖动滑块以完成验证