统计学假设检验中 p 值的含义具体是什么?

大神们求不要复制百科定义,也不要用一堆专业术语。 举个例子好了: 投飞镖,假设一个飞镖有10,9,8,7,6,5,4,3,2,1总共十个环(10是中心),定义合格投手为其真实水平能投到10~3环,而不管他临场表现如何。假设10~3环占靶子面积的95%。 H0:A是一个合格投手 H1:A不是合格投手 以上面这个故事为例,请问大神们可不可以就此来讲解一下【显著性水平】、【p值】、【检验的势】的意义以及计算方法?
关注者
2,507
被浏览
179,128

64 个回答

收录于编辑推荐 ·
好吧我不擅长讲故事..但我还是试着讲一下。这些故事是我的统计老师讲给我听的

P.S. 1 在我的故事里,显著性水平被称为α,“检验的势”被称为“检验力”,power..
P.S. 2 要彻底理解这三个概念,故事真的不够,建议在有了更多了解之后,看这篇文章《Scientific method: Statistical errors : Nature News & Comment》,或者果壳的翻译版《统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子

故事1
  公司A全国的某个岗位X有1000人应聘,这1000人当中,有400是真的符合公司要求的,有600个是能力不达标来碰运气的。这间公司对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加这个测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后350人通过测试,入职
  但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试
  这些人工作一年后,根据他们的表现,公司发现,其中320人是真的符合公司要求的,30人是碰运气给碰进来的。也就是如下图的情况

  有30个(8.57%>5%)浑水摸鱼的,看来这测试不太行啊..

故事2
  公司B全国的某个岗位Y有1000人应聘,这1000人当中,有800是真的符合公司要求的,有200个是能力不达标来碰运气的。这间公司也对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后650人通过测试,入职
  但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试
  这些人工作一年后,根据他们的表现,公司发现,其中640人是真的符合公司要求的,10人是碰运气给碰进来的,也就是如下图的情况

  650人里只有10人(1.54%<5%)是浑水摸鱼的,这个测试还不错~


  为什么要说这两个坑爹的故事?(哪有公司这么招人的= =)因为这和研究者在进行“通过样本推断总体”一类的研究时的情况类似,不过两家公司代表的可能是不同的研究领域。而用故事最后的比例对比5%来判断故事中的测试是否“有用”,是很容易犯的一个错误
  所谓显著性水平α,就是你允许最多有多大比例庸才(H0)通过你的测试——你允许最多有多大比例“H0”被你误以为是H1。这是预先设置好的,在研究前就存在的。为了防止浑水摸鱼的人靠运气入职公司,你的测验不能太简单
  所谓检验力power,就是你的测试能够让多大比例人才(H1)通过——你有多大能力发现"H1是H1"。检验力分两种,一种是事前检验力,即在正式进行研究前,你预先设定一个检验力标准,为了获得这么大的检验力(以防人才没有被你招进来),你需要对研究进行一些设计(公司需要设计一份“好”的测试,例如不要太难);另一种是回溯性检验力,即在研究进行之后,根据结果计算自己在研究中实际拥有的检验力。故事里的两个其实都是回溯性检验力
  如何权衡上面两者,就看所在领域,及研究者自身了(公司的偏好、决策,以及对于损失人才和浪费资源在庸才两种不同类型的风险承担能力)
  而p,我的理解则是实际上你让庸才之中的多大比例庸才(H0)招了进来,而是入职者当中的庸才比例。故事里两个p值都是.05,但是入职者当中的庸才比例却不是.05。这是最容易混淆的两点。放到研究里,假设p=.030,意思是说你的研究有3%的可能是在“H0”这个库里面被发现而错误地归入H1;而不是指3%的可能在“包含H0和H1的所有现象”这个库里被发现。后一个比例的大小,相当于故事里入职庸才在所有入职人士中的比例,这个比例取决于在应聘者(你想要检验的假设的总体)当中,有多少是人才(H1),有多少是庸才(H0)

其实理解起来很简单,基本原理只有3个: 1、一个命题只能证伪,不能证明为真 2、在一次观测中,小概率事件不可能发生 3、在一次观测中,如果小概率事件发生了,那就是假设命题为假


证明逻辑就是:我要证明命题为真->证明该命题的否命题为假->在否命题的假设下,观察到小概率事件发生了->否命题被推翻->原命题为真->搞定。

结合这个例子来看:证明A是合格的投手-》证明“A不是合格投手”的命题为假-》观察到一个事件(比如A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,概率为p,小于0.05->小概率事件发生,否命题被推翻。

可以看到p越小-》这个事件越是小概率事件-》否命题越可能被推翻-》原命题越可信

---------------------

这个过程实际上和人脑的做判断的过程很相似