科普讲堂丨科研民工与“p值”一生的羁绊,从懂它开始(一)

来自:    更新日期:早些时候
~ 作为一个科研界的搬砖工,p 值实在是一个耳熟能详的名词。找差异基因要看 p 值,做富集分析要看 p 值,不同样本处理如用药前后效果分析也要用到 p 值。p 值应用如此广泛,想必包括我在内的各位搬砖人,肯定有过不止一次的念头,想要搞清楚 p 值的来龙去脉。p 值到底怎么来的,它跟我们常说的各种检验又是什么关系?为什么现在有观点认为 p 值不准,p 值需要校正吗?

各位看官如果有兴趣,就跟着我一起来理一理吧。

我一直有个一夜暴富的梦想,思来想去,我决定买彩票。概率老师告诉我,这“ 不可能 ”。可是,这个不可能是怎么定义的?

本着严谨的思维,我决定做个科学实验。假设,我有可能通过买彩票一夜暴富(零假设),那么这件事情发生的概率(p值)是多少呢?以双色球为例, 一等奖(6+1)中奖概率为:红球33选6乘以蓝球16选1=1/17721088=0.0000056%。概率老师告诉我,如果一件事情发生的概率很小,那么我们就认为这件事不可能发生(备择假设)。

从这件司空见惯的小事,我们可以理出如下思路,怎么对一件事情进行预测。首先,我们需要进行一个零假设,然后,算出这件事发生的概率 p 值,给定一个阈值,比如0.05,当 p<0.05,我们认为这件事不可能发生,那么只能是它的对立面备择假设成立。所以,这个 p 值,其实就是一个概率。这个分析思路看上去也很简单,可是问题来了,p 值到底怎么算?彩票中奖概率当然好算,教科书经典问题,那么其他的呢?这又引起另一个让人头疼的问题。

我们知道,我们所做的一切判断都是基于已有的客观事实,在科研领域,自然是那一堆堆的数据,那么如何从这些数据中做出判断呢,自然是找规律。怎么找规律?数据分布给我们指明了道路。让人头疼的卡方检验,t 检验等等一系列都是由卡方分布,正态分布延伸而来的分析方法。总结一下,从拿到数据,到最后做出判断,需要经历以下过程:

为了更形象的说明这个过程,我引用某知乎作者张自达的一个t检验的例子。

例子

为了更形象的说明这个过程,我引用某知乎作者张自达的一个 t 检验的例子。

假设有一批均值为10的样本数据,符合正态分布。我们抽其中10个样本检测,想看下这10个样本能否代表这批样本数据。下面是我们的分析过程:

第一步 ,拿到实验数据,总体样本均值为10,抽样样本量为10;

第二步 ,确定样本分布为正态分布,作出零假设,认为抽样样本可以代表总体样本;

第三步 ,由于总体样本均值已知,总方差未知,所以采取t检验的方法,用样本方差代替总方差,抽样样本自由度为9,先计算t-检验的统计量

根据这个 t 值和自由度,我们可以算出 p 值,见下图。

p=2 ×0.07417=0.14834

第四步 ,得出结论,以 p<0.05 为阈值,本例中 p>0.05,拒绝原假设,因此,10个抽样样本并不能反应总体样本情况。

看到这里,可能各位看官又和我一样头大了,庆幸的是,p 值计算已经整合到检验方法中,并整合到分析软件中,实际分析中,这些都是不需要自己算的,我们只需要选择合适的检验方法,甚至合适的分析软件就可以,我只是为了更形象的说明p值得到过程,所以找到这个比较简单的例子。

p 值的来龙去脉,我算是大概理清楚了,那么又为什么要对 p 值进行校正呢?

以我们常见的差异表达基因来为例,当我们对其中一个基因进行分析,以 p<0.05 为阈值,我们认为在这个基因上,两个比较组存在差异,这其中只有不到5%出错的概率,我们认为这是显著差异的。但是真正生物分析中,我们不可能只分析一个基因,对于上万的基因数,即便是5%的错误率,以1000个差异基因为例,也会有50个假阳性的结果,因此,FDR(false discovery rate)被提出来,用以控制假阳性的产生。假阳性的控制方法有很多,所以有 q value,p adjust,那么多不同的名词,我会在后面的文章中继续说明。


科普讲堂丨科研民工与“p值”一生的羁绊,从懂它开始(一)视频

相关评论:
  • 15568851338科普讲堂丨科研民工与“p值”一生的羁绊,从懂它开始(一)
    宦陆蒲作为一个科研界的搬砖工,p 值实在是一个耳熟能详的名词。找差异基因要看 p 值,做富集分析要看 p 值,不同样本处理如用药前后效果分析也要用到 p 值。p 值应用如此广泛,想必包括我在内的各位搬砖人,肯定有过不止一次的念头,想要搞清楚 p 值的来龙去脉。p 值到底怎么来的,它跟我们常说...

  • 相关主题精彩

    版权声明:本网站为非赢利性站点,内容来自于网络投稿和网络,若有相关事宜,请联系管理员

    Copyright © 喜物网