如何看待将统计显著标准调整到 p < .005 的做法?这样是不是掉入了样本量的陷阱?

关注者
75
被浏览
5342
  • 谁规定了 p 的临界值 0.05
根据 G. E. Dallal 的统计学史话 Why P=0.05?,0.05=\frac{1}{20} 作为流行的阈值归因于 R. A. Fisher 的两部里程碑式著作,书中附录的常用分布分位数表用了0.05作为计算临界值的尾概率。如果在第二个平行世界,Fisher 的这两部著作附表用0.04=\frac{1}{25}作为尾概率,后来的历史就会有更多的边缘显著报告。值得一提的是,我确信其中尚有更深一层源于自然史的偶然性。在 Fisher 的平行世界,拍脑袋说一个「很小的比例」,\frac{1}{20}\frac{1}{25}有大体类似的可能性被选到。但如果在第三个平行世界,我们哺乳动物的前肢是4指/趾而非5指,所有的原始部落都不会采用10进制,8进制将取而代之。那个世界的 Fisher 大概要选用(八进制的 \frac{1}{20} =)十进制的\frac{1}{16} 作为著作附表临界值的尾概率,后来的历史就会有更少的边缘显著报告。

——偷个懒,这段自引 熊爸:如何看待心理学研究中的边缘显著。统计上显著,除了 p< 约定的尾部小概率,没有更多别的意思。尾概率取 \frac{1}{20} 还是 \frac{1}{100} 甚至 \frac{1}{1000} ,是作者自己在实验设计阶段的决定,从来不应该是编辑的决定。之所以与小领域同行的主流标准取齐,只是为了撇清「偷看数据之后修改」的嫌疑。如果读者与作者心目中的尾部小概率标准不同,双方各自解读精确报告的 p 值即可。


  • 如果你遇到 p=0.0501

昨晚攒书写到 Peak-End Rule 著名的14℃冰水虐手实验 (Kahneman & et al, 1993),手痒把「32位被试22人手贱」的结果过了一下双尾二项检验,哇哦,p=0.0501!K教授要庆幸我不曾是审稿人——原文用的是手工查表计算时代的Z统计量近似算法,低估了 p 值才有名义上的显著。


不过,我挺想知道知友们看到这个 p 值,是对原先的研究假设更相信了还是更不相信了?有数据直觉的同学其实是更相信而不是更不相信了。如果作者不说显著不显著的结论,只说我们算出这么个 p,咱也不知道大伙的一类错误率门槛是 0.005 还是 0.05 或者是八肢桶们的 \frac{1}{16} ,显著不显著还不是你们自己的事。一中各表,咱只管如实公开研究过程报告事实结果。杂志发不发我都发arXiv。话说回来,从来不会有哪个学刊敢说不显著的结果就不给发,更何况咱都没说显著不显著。


  • 0.005 的新标准要坑谁?

Moore的《Critical Thinking》教材开篇就区分客观性陈述与主观性陈述。当然,幼儿园教 Critical Thinking 不会教得这么学究,这个意思说人话就是:区别陈述指向的是事实 (Facts) 还是观点 (Opinions) ——《为什么国外孩子从小学习怎么区分 Facts vs Opinions?因为这就是培养批判性思维的起点》 。诺奖大V主张的观点比普通知友主张的说服力大,诺奖大V报告的事实与普通知友报告的说服力一样。匿名盲审体系的主旨就是不让大V观点占去所有话语权,让学徒们也有机会拿事实发声。

p 算出来是多少,是一个事实。p 多小才有说服力,是一个可以因人而异的观点。有钱能使鬼推磨,有钱常常也能使 p 变小。扩大样本量,可以缩小标准误(的平方),如果效应量大体靠谱,p 值就刷刷刷地缩小。这也是大V们提议0.005的理由:可以刷掉效应量不靠谱的学术泡沫。然而这样做并不是没有代价,和学术泡沫一起被刷掉的是经费捉襟见肘的学徒们纯凭事实发声的学术话语权。


  • 如何(通过耐心的操作化学习)正确解读 0.05 vs 0.005

这个事情完全不适合对着手机小屏幕轻阅读。涉及到四个数量。有兴趣学的知友可以试试这个习题,需要用到 R 的pbinom(...) 函数。为了少绕一点弯子,只练习简化的单尾检验——

硬币正面朝上概率是上帝知道你不知道 的\xi 。每轮抛 n =32 枚硬币,你现在看到的是22枚正面, \xi 的点估计是 x=\frac{22}{32}。重复玩无限多轮,观测到一样大以及更大 x的概率(单尾 p 值)多大?参考答案:1-pbinom(22-0.5, size = 32, prob = \xi )

作出 \xip 的函数关系图。然后就容易理解,改变虚无假设 \xip 要变。那些得到小于约定临界值 0.05 的 p 的 虚无假设\xi 都被排除(拒绝)。用置信区间的语言,你有1-0.05的置信度(≈把握)得到 \xi 的范围。把0.05变成0.005,你的把握从95%提到99.5%,你能拒绝的部分就一下子少了很多,怎么办?在收数据之前就把 n 设计得更大,烧更多钱。


Kahneman, D., Frederickson, B. L., Schreiber, C. A., & Redelmeier, D. A. (1993). When More Pain Is Preferred to Less: Adding a Better End, Psychological Science, 4, 401-405.

> binom.test(x = 22,n = 32)

	Exact binomial test

data:  22 and 32
number of successes = 22, number
of trials = 32, p-value = 0.0501
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.4999224 0.8388153
sample estimates:
probability of success 
                0.6875 

> prop.test(x = 22,n = 32,correct = F) #Z=sqrt(X-squared); "p" means probability of success 

	1-sample proportions test
	without continuity correction

data:  22 out of 32, null probability 0.5
X-squared = 4.5, df = 1, p-value = 0.03389
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
 0.5143332 0.8204746
sample estimates:
     p 
0.6875 

> binom.test(x = 22,n = 32,alternative = 'greater') #right tailed test

	Exact binomial test

data:  22 and 32
number of successes = 22, number of trials = 32, p-value = 0.02505
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
 0.5278596 1.0000000
sample estimates:
probability of success 
                0.6875