Index
メルカリデータセット
メルカリが研究者に提供しているデータセット.
データセット #まとめ編
メルカリデータセット
- 国立情報学研究のデータレポジトリ
- www.nii.ac.jp
過程が定常であることを前提とした解析手法がある一方、
経済・ファイナンスデータの中には、定常過程の性質を持たないものも多い.
そのようなデータをモデル化するのに、有用である単位根過程について述べる.
過程の定常性 (定常過程) は、期待値、自己分散が時間を通じて一定であることを必要としていた.
この性質が意味することは、トレンド (俯瞰的な流れの変化) を持たないことを前提としている (要求されている) ことである.
単位根過程は、非定常過程の代表的な過程であり、定常過程を基に定義される.
検定 #まとめ編
時系列解析 #まとめ編
データが自己相関をもっているのであれば、その自己相関構造を記述できる時系列モデルを構築し、
そのモデルを予測などに用いることができる.
逆にいえば、データが自己相関を持っていないのであれば、時系列解析でできることは、非常に限られてしまう.
自己相関の検定を行うためには、まず自己相関の推定値を計算する必要がある.
期待値を求め、自己共分散を求めることができれば、自己相関係数を求めることできる.
この標本自己相関 を用いて、
に対して検定を行う.
真の過程を AR(1) モデルと仮定し、
対して検定する.
DF 検定では、真のモデルが AR(1) 過程と仮定されていた.
しかしながら、AR(1) 過程でモデル化できる経済・ファイナンスなどのデータは、
限られており、この仮定は、現実的でない場合も多い.
そこで、この仮定を緩めて、DF 検定を拡張した検定を考える.
仮説検定は、「有意性」の検定である.
「仮説の下で期待するもの」と「観測した結果」を比較し、 これらの違い・差が偶然によって起こったものか否かを評価する.
「母集団に関する命題」を得られた標本から検証するための手法.
結果と理論値のズレが、確率的な誤差の範囲内かどうかを検証する.
理論値とのずれが確率的な誤差の範囲を超え、誤りであると判断せざるを得ないとき、
「仮説を棄却する」という.
「仮説を棄却する」ということは、
である.
この基準となる確率は、有意水準とよばれる.
で、表されることが多い.
仮説が棄却された場合、仮説からのズレは、有意であるという.
偶然ではない.
母集団の母数について、ある条件についてある条件を仮定して、設定した仮説を
帰無仮説と呼ぶ.
また、これと対立する仮説を対立仮説とよぶ.
正規母集団の母平均に関する検定は、広く行われている検定である.
確率・統計 Ⅰ
現代数理統計学の基礎
最も基本的な強定常性の例として、次の iid 系列がある.
iid 系列を取り上げたが、独立性や同一分布性は非常に強い仮定であり、必ずしも分析に必要となるものではない.
したがって、もう少し弱い仮定しか必要とせず、モデルの撹乱項として用いることができるものがあれば便利である.
それでは、ホワイトノイズを紹介する.
テーブルデータを入力とする深層学習手法.
特徴量選択とは、予測に有用な特徴量を選択.
Ward Selection や Lasso Regularization (正則化) は、
学習データ全体に基づいて、特徴量の重要性を特定する.
この様な手法を、Global Method と呼ぶ.
また、入力ごとに個別に特徴量を選択する手法を Instance Wise とよぶ.
TabNet は、Soft Feature Selection が導入されている.
Soft Feature Selection は、制御可能でスパース性を持つ.
Sequential Attention を使用して、特徴量選択 / Feature Selection を行う.
Decision Tree は、表形式 / Tabular のデータによく使用される.
Decision Tree #まとめ編
Random Forests
Sequential Attention を使用して、特徴量選択 / Feature Selection を行うことで、 Decision Tree に DNN を導入している.
自己教師あり / Self Supervised
事前学習 / Pre Training
Gradient Descent を利用して最適化を行う.
このアルゴリズムにおけるテクニック.
深層学習を用いた時系列解析のアルゴリズムをまとめる.
深層学習 #まとめ編
時系列解析 #まとめ編
SCINet: Time Series Modeling and Forecasting with Sample Convolution and Interaction
トランスフォーマーを超える予測性能SCINet
DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks
【Amazon Forecast】DeepARの論文が気になったのでざっくり読んでみた
GAN を用いた時系列解析手法.
Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency
時系列での事前学習を自己教師対照学習で初めて現実化した時間-周波数整合性(TF-C)