オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【機械学習】データ分割 #まとめ編

Index

汎化能力

学習とは、学習データに対する識別関数の出力値と教師データとの誤差が最小になるように、 識別関数のパラメータを調整することである.

しかし、学習で得られた識別関数が学習データに含まれていない 未知のデータに対してうまくはたらくという保証はない.



以下のような状態の簡単なルールベースの識別器に含まれるパラメータ調整時には、汎化対応はいらないのか?

  • パラメータの意味が人間にとってわかりやすく、変更対応が迅速にできる
  • 対象のデータの内容がある程度分かっていて、過学習すればするほど精度があがることが期待できる
  • また、未知データがある程度予測できる.



そこで、学習データから取り除いておいたテストデータを用いて性能評価を行い、 未知データに対する動作をテストデータに対する誤り確率という形で予測することが行われている.

未知のデータに対する識別能力を汎化能力といい、また、その誤差を汎化誤差という.

データ分割

学習データセットとテストデータセットは、手元にあるデータかを分割して、作成する.

分割方法

ホールドアウト法 / Holdout Method

交差確認法 / 交差検証法 / Cross Validation Method

一つ抜き法 / Leave One Out Method

ブートストラップ法 / Bootstrap Method

参考