Index

ランダムフォレスト / Random Forests とは

機械学習の学習の工夫の一つとして、アンサンブル学習 / Ensemble Learning がある.

そのアンサンブル学習の手法の一つである「バギング/ Bagging」は、決定木のようなアルゴリズムが弱識別器に利用され、学習データに対するバイアスが小さく、分散が大きな(過学習しやすい)識別器に適した手法である.

しかし、ブートストラップサンプリングによる(学習データのサンプリングを行う)ため、生成された決定木の間の相関が高くなる.(似たような識別結果を出してしまう.)

一般に、分散 $\sigma^{2}$ をもつ $M$ 個の確率変数 $X_{i}\ (i\ =\ 1,\ \cdots,\ M)$ (弱識別の予測結果)を考えたとき、

平均(M個の予測結果の平均)は以下のように表し、

$\bar{X}\ =\ \displaystyle \frac{1}{M} \displaystyle \sum_{i=1}^{M} X_{i}$

平均の分散(アンサブルの最終的な予測結果の振れ幅)は以下のように表すが、

$Var \{\bar{X}\}\ =\ \displaystyle \frac{\sigma^{2}}{M}$

任意の二つの確率変数(弱識別器の予測結果)の間に、正の相関 $\rho$ がある場合(弱識別器が似たような識別を行う場合)には、以下ように表す.

$Var \{\bar{X}\}\ =\ \displaystyle \frac{1\ -\ \rho}{M} \sigma^{2}\ +\ \rho \sigma^{2}$

(予測結果を安定させるために、) ブートストラップ数の $M$ を増やせば上の式の第1項は減るが、第2項は減らない.

ランダムフォレストは、 $\rho$ を減らす仕組みを入れてバギングを強化した仕組みである.

ランダムフォレスト / Random Forests は、弱識別器に決定木を使ったバギングを改良し、決定木の各非終端ノードにおいて、識別に用いる特徴を あらかじめ決められた数だけランダムに選択することで、相関の低い多様な決定木を生成できるようにした手法.

$Z_{m}$ を学習データとして、以下の手順により各ノード $t$ を分割し、決定木 $T_{m}$ を成長させる. 葉ノードのデータ数の加減は $1$ とする.

入力データ $x$ に対する $m$ 番目の木の識別結果を $y_{m} (x)\ \in\ \{C_{1},\ \cdots,\ C_{K}\}$ とする. ランダムフォレスト $\{ T_{m} \}_{m=1}^{M}$ の識別結果を、 $C_{i}\ =\ arg \displaystyle \max_{j} |C_{j}|$ とする. $|C_{j}|$ はクラス $C_{j}$ と判断した木の数である.つまり、多数決.