贝叶斯学派与频率学派有何不同?

关注者
5,648
被浏览
206,371

55 个回答

简单地说,频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。举例而言,想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

然而,贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。

总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程,贝叶斯概率论假设观察者对某事件处于某个知识状态中(例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念),之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)。在这一过程中,观察者无法用简单的逻辑来推断,因为观察者并没有完全的信息作为证据,因此只能采用似真推断(plausible reasoning),对于各种各样可能的结果赋予一个「合理性」(plausibility)。例子中,小明原先认为硬币的分布是均匀的,于是根据小明原有的信念,这个论断合理性非常高;在观察到100次抛掷中只有20次正面朝上后,小明开始怀疑硬币的均匀性,此时小明很可能认为「硬币不均匀」这一推断的合理性很高,支持的证据就是他刚刚实验的观测结果。

上面的例子用贝叶斯概率论的语言来描述,就是观察者持有某个前置信念(prior
belief),通过观测获得统计证据(evidence),通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」,从而得出后置信念(posterior belief)来最好的表征观测后的知识状态(state of knowledge)。这里,贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量(measure of plausibility),从而可以允许观测者在不完全信息的状态下进行推断。这里,观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」,也就是说,观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。

从这个意义上来讲,贝叶斯概率论试图构建的是知识状态的表征,而不是客观世界的表征。因此,在机器学习、统计推断中,许多情况下贝叶斯概率推断更能解决观察者推断的问题,而绕开了关于事件本体的讨论,因为没有讨论本体的必要性。

参考:《概率论沉思录》

// 补充(从对其他回答的评论中转移过来):

贝叶斯概率仍然只是一个实数,而概率分布是推断者根据自己的知识状态赋予参数在某集合内取各个值的可信度,因此概率分布表征了推断者的知识状态。

例如:一个硬币可能取正面或反面,某推断者的知识状态是对于「下一次会得到正面」赋予1/3的可信度(概率),「下一次得到反面」赋予2/3的可信度(概率),总的这个知识状态才是表证这个推断者的概率分布,这边是一个先验分布(可能来源于对这枚硬币的事先了解),随着他一直投掷硬币作实验,这位观测者会不断更新自己的知识状态,一个后验分布(另一组更新后的对正反面的看法,即赋予的可信度)来最好地表征推断者的最新的知识状态。

因此,贝叶斯概率和分布仍然是两个不同的概念,只是设定概念的动机不同。

谢谢 @Heinrich@Oyster Kwok 的精彩例子和 @任坤 的精彩陈述。

Regina Nuzzo女士2014年2月份发在Nature杂志Volume506,Issue7487上批判p值滥用的文章(原文和中译文链接见本文末),像极了贝叶斯学派的逆袭。


Regina Nuzzo文章的主要的贡献在于,通过整理科学研究文献,用数据和实例证实了科学研究中确实存在p值统计学显著结果不可重现等问题,并借此呼吁重视贝叶斯方法。文章全文有七处引用Goodman的原话("Goodman says"),11篇参考文献中有三篇来来自Goodman。而Steven Goodman是贝叶斯方法的支持和推动者。


直至今日,关于统计推断的主张和想法,大体可以纳入到两个体系之内,其一叫频率学派,其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。另一派叫做贝叶斯学派,他们把参数θ视作随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。


两学派各有其信仰、内在逻辑、解释力和局限性,从20世纪上半页至今,两大学派的辩论从未停歇,但分歧如故。贝叶斯学派的发展在二十世纪滞后于频率学派,甚至现今主流统计学教材仍然以频率学派的理论框架为主,贝叶斯理论通常一笔带过。这或许受到Karl Pearson,Sir Ronald A. Fisher,Egon Pearson(Karl Pearson的儿子)和Jerzy Neyman等二十世纪上半叶的大统计学家的影响,这些当时具有话语权的大统计学家并不认可贝叶斯理论(尽管一些人的文章里被怀疑使用了贝叶斯的思想)。


注:

上一段中提到的二十世纪上半页大统计学家的部分贡献(排列不分先后):

Karl Pearson:拟合优度检验,Chi方检验,矩估计

Ronald A. Fisher:极大似然估计,显著性检验(提到p值),方差分析,F检验,试验设计理论

Egon Pearson和Jerzy Neyman:假设检验,两类统计学错误,备择假设,似然比检验

Jerzy Neyman:区间估计


Regina Nuzzo的文章相比两学派近一个世纪的辩论而言,并没有提出新的批判观点。


对于频率学派假设检验的理论体系,一次试验得到很小的p值,并不意味这样的结果可以重现。关于p值的可重现性在频率学派框架下的解释,见下例。


场景1:假设盒子A里有近乎无穷的有限个球(就是很多很多数不清但是又不是无穷无尽的意思),每个球上有一个数字(实数)。每从中取出一个球,记录球上的数字X,则X是一个随机变量(每取一次球得到的数字是不确定的)。假设上帝观察了每一个球上的数字,总结得到,X服从均值为1.96,标准差为10的正态分布。那么从中有放回地随机抽取100个,计算这些球上数字的平均值x-bar,则x-bar也是一个随机变量(每做一次取100个球的试验得到的一个均值是不确定的),应当服从均值为1.96,标准差为1的正态分布。


而可怜的试验者事先对盒子里球上数字的平均值一无所知(而为了方便起见,上帝仁慈地告诉试验者盒子里所有球上数字的标准差是10,且平均值不小于零)。试验者希望通过从盒子中有放回地随机抽取100个球,利用这100个球的信息,推断盒子里所有球上数字的均值是否等于零。他目前只能知道(on the mercy of the god,你已经知道得比你应该知道的多了),一次试验得到的平均值x-bar应当服从一个平均值未知,标准差为1的正态分布。


于是他建立的零假设(null hypothesis)是,盒子里所有球上数字的平均值等于零。


可以推断,在不考虑零假设的情况下,如果重复100次这样的试验,可以得到100不全相同的x-bar,这些x-bar应当服从一个平均值未知,标准差为1的正态分布。但可惜试验者通常只有能力和精力做一次这样的试验(就算能做好多次,也在文章发表之后再说吧)。


如果零假设正确,得到的x-bar更有可能在零附近不太远的地方。如果得到的x-bar距离零远得太离谱,这样极端的情况在一次试验中恐怕不太可能发生。既然发生了,更有可能是因为零假设本身是错误的,因而拒绝零假设。取到比某个极端阈值更加极端值的概率,就是p值(Fisher的显著性检验理论,区别于Egon Pearson-Jersey Neyman的假设检验/I类II类错误理论)。


在本例中,如果零假设正确,(根据正态概率分布)则x-bar取到比1.96更大或比-1.96更小值的概率仅有5%。于是设定一个标准,如果一次试验得到大于1.96或小于-1.96的x-bar(p<0.05),那么就很有“信心”认为零假设错误,盒子里所有球数字的平均值不太可能等于零。


频率学派里的“信心”在此处理解为,在零假设正确的情况下,如果真的重复了100次这样的试验,用以上的标准做出对零假设的判断,平均意义上将出现5次错误的拒绝。换句话说,零假设本身正确而被假设检验流程拒绝的可能性是5%(通常的取值有5%,1%等等,没有什么科学依据,5%就是Fisher当年第一次在田间随便一说,后来大家认为都能接受就成习惯了)。


而事实上,上帝知道盒子里所有球数字的平均值是1.96,如果真的重复了100次这样的试验,平均意义上有约50次将得到x-bar小于1.96的结果,而剩下约50次将得到x-bar大于1.96的结果。也就是说,该试验者按照这样的假设检验流程,有50%的可能性得到p<0.05的结果拒绝零假设,有50%的可能性得到p>0.05的结果不能拒绝本应拒绝的零假设。


场景2:描述同模拟1,但上帝观察了每一个球上的数字,总结得到,X服从均值为0.0000196,标准差为10的正态分布。那么从中有放回地随机抽取100个,计算这些球上数字的平均值x-bar,则x-bar也是一个随机变量(每做一次取100个球的试验得到的一个均值是不确定的),应当服从均值为0.0000196,标准差为1的正态分布。


试验者希望通过从盒子中有放回地随机抽取100个球,利用这100个球的信息,推断盒子里所有球上数字的均值是否等于零。他目前只能知道一次试验得到的平均值x-bar应当服从一个平均值未知,标准差为1的正态分布。


于是他建立的零假设(null hypothesis)是,盒子里所有球上数字的平均值等于零。


可以推断,在不考虑零假设的情况下,如果重复100次这样的试验,可以得到100不全相同的x-bar,这些x-bar应当服从一个平均值未知,标准差为1的正态分布。但可惜试验者通常只有能力和精力做一次这样的试验。


如果零假设正确,得到的x-bar更有可能在零附近不太远的地方。如果得到的x-bar距离零远得太离谱,这样极端的情况在一次试验中恐怕不太可能发生。既然发生了,更有可能是因为零假设本身是错误的,因而拒绝零假设。取到比某个极端阈值更加极端值的概率,就是p值


在本例中,如果零假设正确,(根据正态概率分布)则x-bar取到比1.96更大或比-1.96更小值的概率仅有5%。于是设定一个标准,如果一次试验得到大于1.96或小于-1.96的x-bar(p<0.05),那么就很有“信心”认为零假设错误,盒子里所有球数字的平均值不太可能等于零。


而事实上,上帝知道盒子里所有球数字的平均值是0.0000196,如果真的重复了100次这样的试验,平均意义上有将近100次将得到x-bar在-1.96和1.96之间的结果,几乎不会得到x-bar大于1.96或小于-1.96的结果。也就是说,该试验者按照这样的假设检验流程,几乎不能得到p<0.05的结果以拒绝零假设。


但零假设真真的是错的啊。


场景3:描述同模拟1,但上帝观察了每一个球上的数字,总结得到,X服从均值为0.0000196,标准差为10的正态分布。那么从中有放回地随机抽取1000000000000000000个,计算这些球上数字的平均值x-bar,则x-bar也是一个随机变量(每做一次取100个球的试验得到的一个均值是不确定的),应当服从均值为0.0000196,标准差为0.00000001的正态分布。


试验者希望通过从盒子中有放回地随机抽取1000000000000000000个球,利用这1000000000000000000个球的信息,推断盒子里所有球上数字的均值是否等于零。他目前只能知道一次试验得到的平均值x-bar应当服从一个平均值未知,标准差为0.00000001的正态分布。


于是他建立的零假设(null hypothesis)是,盒子里所有球上数字的平均值等于零。


可以推断,在不考虑零假设的情况下,如果重复100次这样的试验,可以得到100不全相同的x-bar,这些x-bar应当服从一个平均值未知,标准差为0.00000001的正态分布。但可惜试验者通常只有能力和精力做一次这样的试验。


如果零假设正确,得到的x-bar更有可能在零附近不太远的地方。如果得到的x-bar距离零远得太离谱,这样极端的情况在一次试验中恐怕不太可能发生。既然发生了,更有可能是因为零假设本身是错误的,因而拒绝零假设。取到比某个极端阈值更加极端值的概率,就是p值


在本例中,如果零假设正确,(根据正态概率分布)则x-bar取到比0.0000000196更大或比-0.0000000196更小的值的概率仅有5%。于是设定一个标准,如果一次试验得到大于0.0000000196或小于-0.0000000196的x-bar(p<0.05),那么就很有“信心”认为零假设错误,盒子里所有球数字的平均值不太可能等于零。


而事实上,上帝知道盒子里所有球数字的平均值是0.0000196,如果真的重复了100次这样的试验,平均意义上有将近100次将得到x-bar大于0.0000196的结果,几乎不会得到x-bar小于0.0000196的结果。也就是说,该试验者按照这样的假设检验流程,几乎总是能够得到p<0.05的结果从而拒绝零假设。



小结:

上面的例子可以看出Fisher的显著性检验的内在逻辑特征及其局限性,

1. 真实参数除了知晓底牌的上帝,凡人是不得而知的。

2. 凡人对真实参数做出的所有零假设都是错误的,都是应该且能够被拒绝的。在样本量足够大的条件下,可以拒绝所有的零假设,总是可以得到p<0.05的结论。

3. p值依赖于一个人为确定的、假想的、错误的但又难以证实难以证伪的零假设下某个统计量的概率分布。

4. 若不能拒绝零假设,也不能称“接受零假设”,因为零假设总是错误的,在增加样本量后总是可以拒绝的。

5. p<0.05,拒绝零假设,有统计学意义并不代表有实际意义。零假设和真实参数差距再小也是可以被拒绝的。

6. 一次试验得到一个p<0.05的结果,拒绝了零假设,并不意味这样的结果在以后的试验中能够重复。尽管不能重现,但没能拒绝的零假设也是应当被拒绝的,只是样本量的问题。


然而,在给定的方法下的一次试验中出现拒绝零假设的结果几乎不能说明任何问题。场景1-3中均可能出现一次试验拒绝零假设的情况,但我们不能反推回去,得知我们所处的场景是1-3中的哪一个。

(修改待续)


试验结果的不可重现还有可能与取样偏倚(样本随机性代表性问题)、缺乏对参数分布的理解(中心极限定理保证,不论总体的分布形式,大样本平均值的分布渐近于正态分布;但对一些诸如偏斜分布、多峰分布等非对称分布,在小样本的情况下,样本平均值不能很好地渐近正态,基于此的统计推断可能出现问题)等因素有关。


回到Regina Nuzzo的文章,Regina Nuzzo提出了p值统计学显著结果不可重现等问题,并认为贝叶斯方法可以补偿这样的缺陷。她提倡从先前的研究结果、猜想的理论机理、和其它专业知识中得到对将要估计的未知参数的先验分布,然后开展试验,向先验分布中补充进新的样本信息,得到后验分布后进而作出推断。


但贝叶斯方法并不能解决所有问题,贝叶斯方法的适用性同样存在争议,特别在于如何确定先验分布这一基本问题。另外,在毫无先验信息的情况下,贝叶斯方法同样无助于解决统计学显著结果不可重现的问题,一些提倡的贝叶斯方法在此处只是单纯增加了判断结果显著性的难度罢了。


综上,两学派的争论并不是一个非黑即白的问题,两个学派各有其信仰、内在逻辑、解释力和局限性,将长期共存、协同发展。顺便提一句,Regina Nuzzo的文字如果不那么冲动和富有煽动性,或许会显得更公正一些。


原文地址:http://www.nature.com/news/scientific-method-statistical-errors-1.14700

果壳翻译地址:http://www.guokr.com/article/438043/

参考文献:

陈希孺,《数理统计学简史》,2002年,湖南教育出版社;等。


错误和不准确的地方请指出。转载请注明出处。