オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【機械学習】バギング / Bagging

この記事の読者

機械学習・マシンラーニングの手法の1つである「バギング / Bagging」について知りたい.

Index

バギング / Bagging とは

複数の識別器を組み合わせるアンサンブル学習の手法の一つに、バギング / Bagging と呼ばれる手法がある.

バギングとは、Bootstrap AGGregatING = BSGGING から派生した語句.



学習データのブーストストラップサンプリングを用いて複数の識別器を学習させ、 新しい入力データのクラスはそれらの識別器の多数決で決めるという方法である.

個々の識別器の性能はランダム識別器よりも少し良ければよいので、弱識別器と呼ばれる.

決定木の利用

弱識別器として、決定木が挙げられる.

決定木は、学習データの少しの変化で識別器の性能が大きく変化してしまうので不安定な識別器であるが、 複数の木からの結果の多数決をとることで、一つの決定木よりも安定で性能のよい識別器を構成することができる.

利点

バギングはブーストストラップサンプルによる学習を行うので、個々の識別器の学習は独立に、並行に行うことができる.

欠点

しかし、識別器がもつばらつきにはブートストラップサンプルのばらつきが反映されるのみなので、 決定木 (弱識別器) 間の相関が高くなるため、決定木 (弱識別器) 間の性能が似かより、十分に精度がでない可能性がある.

改善

このような欠点を補う手法として、「ブースティング」や「ランダムフォレスト」がある.

参考