この記事の読者
機械学習・マシンラーニングの手法の1つである「ランダムフォレスト / Random Forests」について知りたい.
Index
ランダムフォレスト / Random Forests とは
機械学習の学習の工夫の一つとして、アンサンブル学習 / Ensemble Learning がある.
機械学習 #まとめ編
アンサンブル学習 / Ensemble Learning
そのアンサンブル学習の手法の一つである「バギング/ Bagging」は、
決定木のようなアルゴリズムが弱識別器に利用され、
学習データに対するバイアスが小さく、分散が大きな(過学習しやすい)識別器に適した手法である.
バギング / Bagging
決定木 / Decision Tree #まとめ編
しかし、ブートストラップサンプリングによる(学習データのサンプリングを行う)ため、
生成された決定木の間の相関が高くなる.(似たような識別結果を出してしまう.)
一般に、分散 をもつ 個の確率変数 (弱識別の予測結果)を考えたとき、
平均(M個の予測結果の平均)は以下のように表し、
平均の分散(アンサブルの最終的な予測結果の振れ幅)は以下のように表すが、
任意の二つの確率変数(弱識別器の予測結果)の間に、 正の相関 がある場合(弱識別器が似たような識別を行う場合)には、以下ように表す.
平均(M個の予測結果の平均)は以下のように表し、
平均の分散(アンサブルの最終的な予測結果の振れ幅)は以下のように表すが、
任意の二つの確率変数(弱識別器の予測結果)の間に、 正の相関 がある場合(弱識別器が似たような識別を行う場合)には、以下ように表す.
(予測結果を安定させるために、)
ブートストラップ数の を増やせば上の式の第1項は減るが、第2項は減らない.
ランダムフォレストは、 を減らす仕組みを入れてバギングを強化した仕組みである.
学習アルゴリズム
ランダムフォレスト / Random Forests は、弱識別器に決定木を使ったバギングを改良し、
決定木の各非終端ノードにおいて、識別に用いる特徴を
あらかじめ決められた数だけランダムに選択することで、
相関の低い多様な決定木を生成できるようにした手法.
応用
Adversarial Random Forests / ARF
- Adversarial random forests for density estimation and generative modelling
- [2022]
- arxiv.org
決定木が生成と識別を交互に繰り返し,データの構造的特性を徐々に学習する RF 系 GAN モデル.
過学習を抑制して擬似データを生成する傾向にあるとしており, テーブルデータが少ない際に Augmentation として使用できる可能性がある.
過学習を抑制して擬似データを生成する傾向にあるとしており, テーブルデータが少ない際に Augmentation として使用できる可能性がある.
GAN #まとめ編
-
- library
参考
はじめてのパターン認識
- 11 識別器の組み合わせによる性能強化
- 11.5 ランダムフォレスト
-
- 11 識別器の組み合わせによる性能強化
Machine Learning A Probabilistic Perspective
- 16 Adaptive basis function models
- 16.2.5 Random forests
- 16 Adaptive basis function models