オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【時系列解析】前処理 / クリーニング #まとめ編

Index

前処理 / クリーニング

  • 欠損値の対応
  • サンプリング
  • 平滑化
  • 系列の変換
  • 統計量

欠損値の対応

欠損データの処理には、以下の手法がよく使われる.

  • 補完 : データセット全体の観測に基づいて、欠損値を補完する.
    • 前方埋め
    • 移動平均
    • 補間 : 近傍のデータポイントの値を用いて、欠損値を推定する.
  • 削除 : 欠損データがある期間をすべて使用しないことを選択する.

  • 欠損値補完

サンプリング

関連する複数の時系列データどうしでも、収集する(提供された)ソースが異なると、
サンプリング頻度が異なる場合がある.

これは、入手したデータのサンプリング頻度を変えたくなる理由の一つである.

当然ながら、情報が実際に測定された頻度は変更できないが、
収集したデータのタイムスタンプの頻度は変更できる.

この操作をサンプリングという.

  • サンプリング

平滑化

データの平滑化は、様々な理由で行われる.

様々な系列

時系列そのものは、原系列と呼ばれる.

時系列解析の目的は、ほとんどの場合この原系列の性質を明らかにすることあるが、
実際の解析は、原系列に何らかの変換を施した系列に対して解析を行う場合もある.

ここでは、変換を施した系列に注目してみよう.

基本統計量

一般的なデータ解析と同様に、時系列解析においても、 最初に基本統計量を用いてデータの要約を行う.

統計量は、一般的に時点  t に依存するのにもかかわらず、 時系列データは、一度しか観測できないという問題がある.