この記事の読者
機械学習・マシンラーニングの手法の1つである「バギング / Bagging」について知りたい.
Index
バギング / Bagging とは
複数の識別器を組み合わせるアンサンブル学習の手法の一つに、バギング / Bagging と呼ばれる手法がある.
- アンサンブル学習 / Ensemble Learning
バギングとは、Bootstrap AGGregatING = BSGGING から派生した語句.
学習データのブーストストラップサンプリングを用いて複数の識別器を学習させ、
新しい入力データのクラスはそれらの識別器の多数決で決めるという方法である.
個々の識別器の性能はランダム識別器よりも少し良ければよいので、弱識別器と呼ばれる.
決定木の利用
弱識別器として、決定木が挙げられる.
- 決定木 / Decision Tree
決定木は、学習データの少しの変化で識別器の性能が大きく変化してしまうので不安定な識別器であるが、
複数の木からの結果の多数決をとることで、一つの決定木よりも安定で性能のよい識別器を構成することができる.
利点
バギングはブーストストラップサンプルによる学習を行うので、個々の識別器の学習は独立に、並行に行うことができる.
- ブーストストラップ法
欠点
しかし、識別器がもつばらつきにはブートストラップサンプルのばらつきが反映されるのみなので、 決定木 (弱識別器) 間の相関が高くなるため、決定木 (弱識別器) 間の性能が似かより、十分に精度がでない可能性がある.
改善
このような欠点を補う手法として、「ブースティング」や「ランダムフォレスト」がある.
Boosting
Random Forest
参考
- はじめてのパターン認識
- 11.3 バギング