请问随机森林为什么不会过度拟合?

Breiman说当随机森林中的树趋向于无穷时,模型的泛化误差是收敛的。请问为什么泛化误差收敛就能说明不会出现过拟合问题
关注者
140
被浏览
17,615

12 个回答

Overfitting的定义就是当Empirical Loss最优的时候,Generalization Loss不是最优,也就是说训练集效果好,但测试集效果差。如果能证明Generalization Loss收敛到Empirical Loss同一个最优值,那就说明,在训练集上效果多好,测试集上也有同样的效果,所以没有overfit。这其实不只针对随机森林。
Breiman的这句话完全错误,根本没有不过拟合的学习方法!

对于随机森林来说: 在有躁音的情况下(注意,现实世界应用中躁音不能忽略),树太少很容易过拟合,增加树可以减小过拟合,但没有办法完全消除过拟合,无论你怎么增加树都不行。

相关研究见 http://escholarship.org/uc/item/35x3v9t4.pdf