统计学假设检验中 p 值的含义具体是什么?

大神们求不要复制百科定义,也不要用一堆专业术语。 举个例子好了: 投飞镖,假设一个飞镖有10,9,8,7,6,5,4,3,2,1总共十个环(10是中心),定义合格投手为其真实水平能投到10~3环,而不管他临场表现如何。假设10~3环占靶子面积的95%。 H0:A是一个合格投手 H1:A不是合格投手 以上面这个故事为例,请问大神们可不可以就此来讲解一下【显著性水平】、【p值】、【检验的势】的意义以及计算方法?
关注者
2,582
被浏览
202,550

67 个回答

讲概率、论统计,肯定要从抛硬币说起啊,这才是正确打开姿势嘛。

1 什么是假设检验?

你说你的硬币是公平的,也就是“花”和“字”出现的概率是差不多的。

然后,你想和我打赌,作为一个资深的理智赌徒,我怎能听信你的一面之词,我提出要检查下你的硬币到底是不是公平的,万一是两面“花”怎么办?电影里面不是经常出现这样的桥段?

你神色紧张,死活不让我检查,后来我们提出了折衷的方案,抛几次硬币,看看结果是不是公平的。

总共扔了两次,都是“花”朝上,虽然几率是 0.5\times 0.5=0.25 ,但是也正常,继续扔。

总共扔了四次,也都是“花”朝上,几率是 0.5^4=0.0625 ,感觉有点不正常,但是万一是运气呢?继续扔。

总共扔了十次,也都是“花”朝上,那我就认为很可能你这枚硬币不是公平的。

这就是假设检验

  • 你提出假设:说你的硬币是公平的
  • 我提出要检验你的假设:扔十次,看实验的结果是不是和你的假设相符

2 P值

为了完成假设检验,需要先定义一个概念:P值。我们这里就来解释什么是P值?

根据上面的描述,这里假设检验的思路就是:

  • 假设:硬币是公平的
  • 检验:认为假设是成立的,然后扔十次,看结果与假设是否相符

反复扔硬币应该符合二项分布(这就不解释了),也就是:

X\sim B(n,\mu )\\

其中, n 代表扔硬币的次数, \mu 代表“花”朝上的概率。

在我们认为硬币是公平的前提下,扔10次硬币应该符合以下分布:

X\sim B(10, 0.5)\\

下图表示的就是,假如硬币是公平的情况下的分布图:

我扔了十次之后得到的结果是,有八次正面:

这个时候有个数学大佬出来定义了一个称为 P 值(p-value)的概念:

罗纳德·艾尔默·费希尔爵士(1890-1962)

把八次正面的概率,与更极端的九次正面、十次正面的概率加起来:

得到的就是(单侧P值):

\text {p-value}=P(8\leq X\leq 10)=0.05\\

其实,出现两次正面、一次正面、零次正面的概率也是很极端的:

所以(双侧P值):

\text {p-value}=P(0\leq X\leq 2)+P(8\leq X\leq 10)=0.1\\

2.1 为什么要把更极端的情况加起来?

根据扔硬币这个例子,可能你会觉得,我知道八次正面出现不正常就行了,干嘛要把九次、十次加起来?

我觉得有这么一个现实原因,比如我要扔1000次硬币来测试假设是否正确。

扔1000次硬币用二项分布来计算很麻烦,根据中心极限定理,我们知道,可以用正态分布来近似:

比如,我扔了1000次,得到了530次正面,用正态分布来计算就比较简单。

但是,对于正态分布,我没有办法算单点的概率(连续分布单点概率为0),我只能取一个区间来算极限,所以就取530、以及更极端的点组成的区间:

我上面只取了单侧P值,说明下:

  • 取单侧还是双侧,取决于你的应用
  • 什么叫做更极端的点,也取决于你的应用

3 显著水平

总共扔10次硬币,那么是出现7次正面之后,可以认为“硬币是不公平的”,还是9次正面之后我才能确认“硬币是不公平的”,这是一个较为主观的标准。

我们一般认为

\text {p-value}\leq 0.05\\

就可以认为假设是不正确的。

0.05这个标准就是显著水平,当然选择多少作为显著水平也是主观的。

比如,上面的扔硬币的例子,如果取单侧P值,那么根据我们的计算,如果扔10次出现9次正面:

\text {p-value}=P(9\leq X\leq 10)=0.01\leq 0.05\\

表示出来如下图所示:

我们可以认为刚开始的假设错的很“显著”,也就是“硬币是不公平的”。

如果扔10次出现出现8次正面:

\text {p-value}=P(8\leq X\leq 10)=0.05\leq 0.05\\

呃,这个和我们的显著水平是一样的啊,我们也可以拒绝假设,只是没有那么“显著”了。

4 与置信区间的关系

知识要联系起来看,理解更深刻。

置信区间,目的是根据样本构造一个区间,然后希望这个区间可以把真值包含进去,但是并不知道这个真值是多少?具体可以参考 如何理解 95% 置信区间?

而假设检验,则是假设真值是多少,然后检验这个假设是否可能为真。

之所以觉得它们有关系,大概是因为它们都提到了0.05。

它们之间的关系也简单,如果我们提出来的假设 \mu _0 在样本 \bar{x} 的置信区间内,就可以通过测试:

反之,就不能通过:

收录于编辑推荐 ·
好吧我不擅长讲故事..但我还是试着讲一下。这些故事是我的统计老师讲给我听的

P.S. 1 在我的故事里,显著性水平被称为α,“检验的势”被称为“检验力”,power..
P.S. 2 要彻底理解这三个概念,故事真的不够,建议在有了更多了解之后,看这篇文章《Scientific method: Statistical errors : Nature News & Comment》,或者果壳的翻译版《统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子

故事1
  公司A全国的某个岗位X有1000人应聘,这1000人当中,有400是真的符合公司要求的,有600个是能力不达标来碰运气的。这间公司对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加这个测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后350人通过测试,入职
  但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试
  这些人工作一年后,根据他们的表现,公司发现,其中320人是真的符合公司要求的,30人是碰运气给碰进来的。也就是如下图的情况

  有30个(8.57%>5%)浑水摸鱼的,看来这测试不太行啊..

故事2
  公司B全国的某个岗位Y有1000人应聘,这1000人当中,有800是真的符合公司要求的,有200个是能力不达标来碰运气的。这间公司也对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后650人通过测试,入职
  但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试
  这些人工作一年后,根据他们的表现,公司发现,其中640人是真的符合公司要求的,10人是碰运气给碰进来的,也就是如下图的情况

  650人里只有10人(1.54%<5%)是浑水摸鱼的,这个测试还不错~


  为什么要说这两个坑爹的故事?(哪有公司这么招人的= =)因为这和研究者在进行“通过样本推断总体”一类的研究时的情况类似,不过两家公司代表的可能是不同的研究领域。而用故事最后的比例对比5%来判断故事中的测试是否“有用”,是很容易犯的一个错误
  所谓显著性水平α,就是你允许最多有多大比例庸才(H0)通过你的测试——你允许最多有多大比例“H0”被你误以为是H1。这是预先设置好的,在研究前就存在的。为了防止浑水摸鱼的人靠运气入职公司,你的测验不能太简单
  所谓检验力power,就是你的测试能够让多大比例人才(H1)通过——你有多大能力发现"H1是H1"。检验力分两种,一种是事前检验力,即在正式进行研究前,你预先设定一个检验力标准,为了获得这么大的检验力(以防人才没有被你招进来),你需要对研究进行一些设计(公司需要设计一份“好”的测试,例如不要太难);另一种是回溯性检验力,即在研究进行之后,根据结果计算自己在研究中实际拥有的检验力。故事里的两个其实都是回溯性检验力
  如何权衡上面两者,就看所在领域,及研究者自身了(公司的偏好、决策,以及对于损失人才和浪费资源在庸才两种不同类型的风险承担能力)
  而p,我的理解则是实际上你让庸才之中的多大比例庸才(H0)招了进来,而是入职者当中的庸才比例。故事里两个p值都是.05,但是入职者当中的庸才比例却不是.05。这是最容易混淆的两点。放到研究里,假设p=.030,意思是说你的研究有3%的可能是在“H0”这个库里面被发现而错误地归入H1;而不是指3%的可能在“包含H0和H1的所有现象”这个库里被发现。后一个比例的大小,相当于故事里入职庸才在所有入职人士中的比例,这个比例取决于在应聘者(你想要检验的假设的总体)当中,有多少是人才(H1),有多少是庸才(H0)