オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【金融時系列解析】特徴量サンプリング

Index

特徴量サンプリング (金融データ)

時系列金融データの場合を考える.

整形された構造化金融データセット(バー / ヒストリカルデータ)のまま、
アルゴリズムに利用することはできますが、2 つの点でおすすめできない.

第 1 に、いくつかの機械学習アルゴリズム(SVM 等)は、
大きなサンプルサイズに対してうまく機能しないことがある.

第 2 に、機械学習アルゴリズムは、適切なサンプルのみで学習を行うと最高の精度を達成する.

つまり、時系列データセットの全ての時点をアルゴリズムで利用するのではなく、
特徴のある相場のデータのみアルゴリズムで利用することで、 予測タスク(急騰 / 急落を予測する等)の精度が向上することがあるということ.

データ量削減のためのサンプリング

構造化データセットから特徴量サンプリングする理由の 1 つは、
使用するデータ量を削減し機械学習アルゴリズムに適合させるため.

この操作は、ダウンサンプリングとも呼ばれる.

一般にサンプリングというと、

  • 一定の間隔で順番にサンプリング (等間隔サンプリング)するか
  • 一様分布を用いてランダムにサンプル (一様サンプリング) するか

で行われることが多い.

等間隔サンプリングの主な利点は、その単純さにあるが、欠点として間隔が恣意的であり、
最初のバーの位置によって結果が異なってしまう可能性がある.

一様サンプリングは、バー(1 時点のデータ)の集合全体からサンプルを均一に抽出することによって、
等間隔サンプリングの欠点に対処できるが、情報量の観点からは、サンプルが最も適切な観測値(特徴のある相場)を
必ず含むとも限らない.

イベントベースサンプリング

投資家は、なにかしらのイベントが発生した後にベット(金融商品の売買)を行う.

これらのイベントは、マクロ経済統計の発表、ポラティリティの急上昇、
平衡水準からのスプレッドの著しい逸脱などと関連している可能性がある.

イベントを重要なものとして特徴づけ、それらの状況下において
正確な予測関数が存在するかどうかを機械学習アルゴリズム
学習させることを目的とする.

そこで、イベントベースのサンプリング方法を考える.

CUSUM フィルタ

CUSUM (Cumulative Sum / 累積和) を利用する.

CUSUM フィルタは、測定した値の平均値が目標値から離れていくかを検出するための手法.

yhayato1320.hatenablog.com

参考