オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【データセット】メルカリデータセット

Index

メルカリデータセット

メルカリが研究者に提供しているデータセット.

【時系列解析】単位根過程

Index

単位根過程

過程が定常であることを前提とした解析手法がある一方、 経済・ファイナンスデータの中には、定常過程の性質を持たないものも多い.

そのようなデータをモデル化するのに、有用である単位根過程について述べる.

性質

過程の定常性 (定常過程) は、期待値、自己分散が時間を通じて一定であることを必要としていた.

この性質が意味することは、トレンド (俯瞰的な流れの変化) を持たないことを前提としている (要求されている) ことである.

経済・ファイナンスデータにおいて、これらの性質を満たさないものは多い.

定義

単位根過程は、非定常過程の代表的な過程であり、定常過程を基に定義される.

単位個過程の定義 原系列 [tex: y{t}] が、非定常過程であり、 差分系列 [tex: \Delta\ y{t}\ =\ y{t}\ -\ y{t-1}] が定常過程であるとき、 この過程は単位根過程と呼ばれる.

参考

【時系列解析】検定

Index

検定

自己相関の検定

データが自己相関をもっているのであれば、その自己相関構造を記述できる時系列モデルを構築し、 そのモデルを予測などに用いることができる.

逆にいえば、データが自己相関を持っていないのであれば、時系列解析でできることは、非常に限られてしまう.

統計量

自己相関の検定を行うためには、まず自己相関の推定値を計算する必要がある.

期待値を求め、自己共分散を求めることができれば、自己相関係数を求めることできる.

仮設検定

この標本自己相関  \hat{\rho}_{k} を用いて、



に対して検定を行う.

単位根過程の検定

Dickey-Fuller / DF 検定

真の過程を AR(1) モデルと仮定し、

  • 「過程が、単位根 AR(1) 過程である」という帰無仮説
  • 「過程が、定常 AR(1) 過程である」という対立仮説に

対して検定する.

拡張 DF / AFD 検定

DF 検定では、真のモデルが AR(1) 過程と仮定されていた.

しかしながら、AR(1) 過程でモデル化できる経済・ファイナンスなどのデータは、 限られており、この仮定は、現実的でない場合も多い.

そこで、この仮定を緩めて、DF 検定を拡張した検定を考える.

真のモデルが、AR(p) 過程であることを仮定した検定が ADF 検定である.

参考

【統計学】検定 #まとめ編

Index

検定

仮説検定は、「有意性」の検定である.

「仮説の下で期待するもの」と「観測した結果」を比較し、 これらの違い・差が偶然によって起こったものか否かを評価する.

目的

「母集団に関する命題」を得られた標本から検証するための手法.

結果と理論値のズレが、確率的な誤差の範囲内かどうかを検証する.

手段

棄却

理論値とのずれが確率的な誤差の範囲を超え、誤りであると判断せざるを得ないとき、 「仮説を棄却する」という.

「仮説を棄却する」ということは、

「得られた標本が、ほとんど起こらないほど出現する確率が低い場合」



である.

有意水準

この基準となる確率は、有意水準とよばれる.

 \alpha で、表されることが多い.

仮説が棄却された場合、仮説からのズレは、有意であるという.

偶然ではない.

帰無仮説と対立仮説

母集団の母数について、ある条件についてある条件を仮定して、設定した仮説を 帰無仮説と呼ぶ.



また、これと対立する仮説を対立仮説とよぶ.

母平均に関する検定

正規母集団の母平均に関する検定は、広く行われている検定である.

両側検定

片側検定

検定統計量

p-値

t-値

時系列データにおける検定

参考

Web サイト

【時系列解析】ホワイトノイズ

Index

ホワイトノイズ

iid 系列

最も基本的な強定常性の例として、次の iid 系列がある.

iid 系列

各時点のデータが互いに独立で、かつ同一の分布に従う系列は、iid 系列と呼ばれる.

Independently and Identically Distributed



時刻  t の変数  y_{t} が、 期待値  \mu、分散  \sigma^{2} の iid 系列であるとき

 y_{t}\ \sim\ iid(\mu,\ \sigma^{2})


と表記する.



iid 系列自体が、経済・ファイナンスデータの時系列モデルとして用いられることは少ないが、 期待値 0 の iid 系列は時系列モデルの撹乱項、すなわち、 確率的変動を表現する部分として用いられることができる.



iid 系列を取り上げたが、独立性や同一分布性は非常に強い仮定であり、必ずしも分析に必要となるものではない.

したがって、もう少し弱い仮定しか必要とせず、モデルの撹乱項として用いることができるものがあれば便利である.

それでは、ホワイトノイズを紹介する.

ホワイトノイズ

ホワイトノイズ すべての時点  t において

 E(\epsilon_{t})\ =\ 0

 \gamma_{k}\ =\ E(\epsilon_{t},\ \epsilon_{t\ -\ k})\ =\ \left\{
\begin{array}{ll}
\sigma^{2} & k\ =\ 0 \\
0 & k\ \neq\ 0
\end{array}
\right.



が成立するとき、 \epsilon_{t} はホワイトノイズと呼ばれる.

参考

【深層学習】TabNet

Index

TabNet

テーブルデータを入力とする深層学習手法.

特徴量選択 / Feature Selection

特徴量選択とは、予測に有用な特徴量を選択.

Global Method

Ward Selection や Lasso Regularization (正則化) は、 学習データ全体に基づいて、特徴量の重要性を特定する.

この様な手法を、Global Method と呼ぶ.

Instance Wise

また、入力ごとに個別に特徴量を選択する手法を Instance Wise とよぶ.

Soft Feature Selection / Sparse Feature Selection

TabNet は、Soft Feature Selection が導入されている.

Soft Feature Selection は、制御可能でスパース性を持つ.

Sequential Attention を使用して、特徴量選択 / Feature Selection を行う.

アルゴリズムの構成

Tree Based Learning / Decision Tree

Decision Tree は、表形式 / Tabular のデータによく使用される.

DNN の導入

Sequential Attention を使用して、特徴量選択 / Feature Selection を行うことで、 Decision Tree に DNN を導入している.

教師なし事前学習 / Unsupervised Pre-Training



教師なし学習のひとつである自己教師あり学習を利用.

Optimize

Gradient Descent を利用して最適化を行う.

Tabular Learning

このアルゴリズムにおけるテクニック.

Sequential Attention

参考

  • TabNet: Attentive Interpretable Tabular Learning
    • [2019]
    • 0 Abstract
    • 1 Introduction
    • 2 Related Work
      • 2.1 Feature selection
      • 2.2 Tree-based learning
      • 2.3 Integration of DNNs into DTs
      • 2.4 Self-supervised learning
    • 3 TabNet for Tabular Learning
      • 3.1 Feature selection
      • 3.2 Feature processing
      • 3.3 Feature processing
      • 3.4 Interpretability
      • 3.5 Tabular self-supervised learning
    • 4 Experiments
      • 4.1 Instance-wise feature selection
      • 4.2 Performance on real-world datasets
    • arxiv.org

Web

  • Tabnetはどのように使えるのか

  • TabNetとは一体何者なのか?

【時系列解析】アルゴリズム #まとめ編 #02

Index

深層学習を用いた時系列解析

深層学習を用いた時系列解析のアルゴリズムをまとめる.

DNN

Graph TNC / 2022

Delay-SDE-net / 2023

  • Delay-SDE-net: A deep learning approach for time series modelling with memory and uncertainty estimates

CNN

SCINet / 2021

RNN

LSTM

Temporal Regularized Matrix Factorization / TRMF / 2016

  • Temporal Regularized Matrix Factorization for High-dimensional Time Series Prediction

Long Short-term Time-series Network / LSTNet / 2017

  • Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks

DeepAR / 2017

  • DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks

  • Amazon Forecast】DeepARの論文が気になったのでざっくり読んでみた

Deep State Space Model / DeepState / 2018

  • Deep State Space Models for Time Series Forecasting

Deep Air Quality Forecasting Framework / DAQFF / 2018

Temporal Fusion Transformer / TFT / 2019

  • Think Globally, Act Locally: A Deep Neural Network Approach to High-Dimensional Time Series Forecasting

Attention

TabNet / 2019

TiDE / 2023

工夫・テクニック

GAN

GAN を用いた時系列解析手法.

Diffusion Model

対照学習

Time-Frequency Consistency / TF-C / 2022

  • Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency

  • 時系列での事前学習を自己教師対照学習で初めて現実化した時間-周波数整合性(TF-C)

参考