オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【機械学習】XGBoost

Index

XGBoost

アンサンブル学習 / Ensemble Learning の手法の一つ.

その中でもブースティング / Boosting を利用した手法.

特に、Gradient Boosting を基盤にしている.

弱学習器には、回帰木 (CART / Classification and Regression Trees) を使用.

アルゴリズムについて

  •  D\ =\ \{(x_{i},\ y_{i})\} : データセット
    •  |D|\ =\ n : データの件数
    •  x_{i}\ \in\ R^{m} : 説明変数の次元数
    •  y_{i}\ \in\ R
  •  K : アンサンブルの弱学習器の数


予測  \hat{y_{i}} の導出.

 \hat{y_{i}}\ =\ \phi(x_{i})\ =\ \displaystyle \sum_{k=0}^{K}\ f_{k}(x_{i}),\ f_{k}\ \in\ F


これは、各弱学習器の葉の重みの合計となっている.

次に、弱学習器の集合  F について.

  •  F\ =\ \{f(x)\ =\ w_{q(x)}\}
    •  w_{q(x)}\ \in\ R : あるモデルの回帰木の weight.  q(x) は、その弱学習器の葉の番号.
    •  q(x)\ :\ R^{m}\ \rightarrow\ T : 葉のindex. 説明変数が入力されて、最終的な出力となった葉の番号

参考

Web サイト