集成学习

Kopei article

集成学习的本质

集成学习的本质是集众之长得出一个更好的结果。专业术语来讲是集成多个单独的classifier(一般是弱学习者weak learner)来获得一个更优的classifier.
集成学习最大的好处是可以解决高偏差和方差问题。采用多个分类器可以增加模型的复杂性来解决方差问题,而只要分类器足够不相干,统计规律告诉我们这样可以减少偏差。

偏差和方差的识别

一般模型的error = Bias**2 + Variance + inreducible error, 实际应用中我们一般使用学习曲线和验证曲线来评估他们。validation curve是不同超参数下,算法可以达到的性能。在每个超参数下,我们使用K-fold交叉验证,存储样本内的性能和样本外的性能,然后计算并画出样本内和样本外的性能的平均和标准差值。最后通过比较相对和觉得的性能,我们可以计算出偏差和方差的大小。

集成学习的关键—足够多样的分类器

基本上有两种方式可以得到足够不同的分类器,一种是使用不同的算法,另一种是使用相同的算法在随机子集。

Bagging

  • Post title:集成学习
  • Post author:Kopei
  • Create time:2022-11-07 00:00:00
  • Post link:https://kopei.github.io/2022/11/06/AI-2022-11-07-集成学习/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments