科普讲堂丨科研民工与“p值”一生的羁绊，从懂它开始（一）

来自：更新日期：早些时候

~ 作为一个科研界的搬砖工，p 值实在是一个耳熟能详的名词。找差异基因要看 p 值，做富集分析要看 p 值，不同样本处理如用药前后效果分析也要用到 p 值。p 值应用如此广泛，想必包括我在内的各位搬砖人，肯定有过不止一次的念头，想要搞清楚 p 值的来龙去脉。p 值到底怎么来的，它跟我们常说的各种检验又是什么关系？为什么现在有观点认为 p 值不准，p 值需要校正吗？

各位看官如果有兴趣，就跟着我一起来理一理吧。

我一直有个一夜暴富的梦想，思来想去，我决定买彩票。概率老师告诉我，这“ 不可能 ”。可是，这个不可能是怎么定义的？

本着严谨的思维，我决定做个科学实验。假设，我有可能通过买彩票一夜暴富（零假设），那么这件事情发生的概率（p值）是多少呢？以双色球为例，一等奖(6+1)中奖概率为:红球33选6乘以蓝球16选1=1/17721088=0.0000056%。概率老师告诉我，如果一件事情发生的概率很小，那么我们就认为这件事不可能发生（备择假设）。

从这件司空见惯的小事，我们可以理出如下思路，怎么对一件事情进行预测。首先，我们需要进行一个零假设，然后，算出这件事发生的概率 p 值，给定一个阈值，比如0.05，当 p<0.05，我们认为这件事不可能发生，那么只能是它的对立面备择假设成立。所以，这个 p 值，其实就是一个概率。这个分析思路看上去也很简单，可是问题来了，p 值到底怎么算？彩票中奖概率当然好算，教科书经典问题，那么其他的呢？这又引起另一个让人头疼的问题。

我们知道，我们所做的一切判断都是基于已有的客观事实，在科研领域，自然是那一堆堆的数据，那么如何从这些数据中做出判断呢，自然是找规律。怎么找规律？数据分布给我们指明了道路。让人头疼的卡方检验，t 检验等等一系列都是由卡方分布，正态分布延伸而来的分析方法。总结一下，从拿到数据，到最后做出判断，需要经历以下过程：

为了更形象的说明这个过程，我引用某知乎作者张自达的一个t检验的例子。

例子

为了更形象的说明这个过程，我引用某知乎作者张自达的一个 t 检验的例子。

假设有一批均值为10的样本数据，符合正态分布。我们抽其中10个样本检测，想看下这10个样本能否代表这批样本数据。下面是我们的分析过程：

第一步，拿到实验数据，总体样本均值为10，抽样样本量为10；

第二步，确定样本分布为正态分布，作出零假设，认为抽样样本可以代表总体样本；

第三步，由于总体样本均值已知，总方差未知，所以采取t检验的方法，用样本方差代替总方差，抽样样本自由度为9，先计算t-检验的统计量

根据这个 t 值和自由度，我们可以算出 p 值，见下图。

p=2 ×0.07417=0.14834

第四步，得出结论，以 p<0.05 为阈值，本例中 p>0.05，拒绝原假设，因此，10个抽样样本并不能反应总体样本情况。

看到这里，可能各位看官又和我一样头大了，庆幸的是，p 值计算已经整合到检验方法中，并整合到分析软件中，实际分析中，这些都是不需要自己算的，我们只需要选择合适的检验方法，甚至合适的分析软件就可以，我只是为了更形象的说明p值得到过程，所以找到这个比较简单的例子。

p 值的来龙去脉，我算是大概理清楚了，那么又为什么要对 p 值进行校正呢？

以我们常见的差异表达基因来为例，当我们对其中一个基因进行分析，以 p<0.05 为阈值，我们认为在这个基因上，两个比较组存在差异，这其中只有不到5%出错的概率，我们认为这是显著差异的。但是真正生物分析中，我们不可能只分析一个基因，对于上万的基因数，即便是5%的错误率，以1000个差异基因为例，也会有50个假阳性的结果，因此，FDR（false discovery rate）被提出来，用以控制假阳性的产生。假阳性的控制方法有很多，所以有 q value，p adjust，那么多不同的名词，我会在后面的文章中继续说明。

科普讲堂丨科研民工与“p值”一生的羁绊，从懂它开始（一）视频

喜物网dongwu.xikan.tv

科普讲堂丨科研民工与“p值”一生的羁绊，从懂它开始（一）

相关主题精彩