オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

このブログについて

このブログでは、数学・統計学機械学習・プログラミングに関した記事を記していきます. 基本的には、私的な勉強のアウトプット / メモを目的としていますが、できるだけ整理して書いていきます. また、記事ごとのテーマ(「最小二乗法」、「確率」など)は明確にして、 「#アルゴリズム」、「#実装編」のような表記で内容を分割して書いていきます.

まとめページ

記事には「#まとめ編」と題しまして、あるテーマに沿った記事が複数書きましたら、 後から読みやすいようにするために、記事をまとめたページを作成しております.

以下、作成したまとめページです.

理論分野

数理最適化

分野一覧 #まとめ編 yhayato1320.hatenablog.com

統計学

統計学・確率 #まとめ編 yhayato1320.hatenablog.com
ベイズ統計学 #まとめ編 yhayato1320.hatenablog.com
回帰分析 #まとめ編 yhayato1320.hatenablog.com

機械学習

分野一覧 #まとめ編 yhayato1320.hatenablog.com
Algorithm / Decision Tree
#まとめ編
yhayato1320.hatenablog.com
Technique / 識別関数
#まとめ編
yhayato1320.hatenablog.com
Technique / データ分割
#まとめ編
yhayato1320.hatenablog.com
Technique / Ensemble Learning
#まとめ編
yhayato1320.hatenablog.com
Technique / Data Augmentation
#まとめ編
yhayato1320.hatenablog.com
Technique / パラメータ推定法
#まとめ編
yhayato1320.hatenablog.com
Technique / モデル評価
#まとめ編
yhayato1320.hatenablog.com
Technique / 類似度
#まとめ編
yhayato1320.hatenablog.com

深層学習

分野一覧 #まとめ編 yhayato1320.hatenablog.com
Skip Layer Connection #まとめ編 yhayato1320.hatenablog.com
Metric Learning / Distance Learning
#まとめ編
yhayato1320.hatenablog.com
Auto Regression Model / 自己回帰モデル
#まとめ編
yhayato1320.hatenablog.com
タスク一覧 #まとめ編 yhayato1320.hatenablog.com

Convolutional Neural Network / CNN

Recurrent Neural Network / RNN

Generative Adversarial Network / GAN

Attention

深層学習
Attention #まとめ編
yhayato1320.hatenablog.com
画像処理
Attention #まとめ編
yhayato1320.hatenablog.com

Transformer

深層学習
Transformer #まとめ編
yhayato1320.hatenablog.com
深層学習
BERT #まとめ編
yhayato1320.hatenablog.com
深層学習
GPT #まとめ編
yhayato1320.hatenablog.com
深層学習
XLM #まとめ編
yhayato1320.hatenablog.com

データ分野

データセット #まとめ編 yhayato1320.hatenablog.com
時系列データセット #まとめ編 yhayato1320.hatenablog.com

系列データ

自然言語処理

自然言語処理 / 分野一覧 #まとめ編 yhayato1320.hatenablog.com
自然言語処理 / 分散表現 #まとめ編 yhayato1320.hatenablog.com
自然言語処理 / 文章生成 #まとめ編 yhayato1320.hatenablog.com

音声処理

音声処理 / 分野一覧 #まとめ編 yhayato1320.hatenablog.com

時系列解析

時系列解析 / 分野一覧 #まとめ編 yhayato1320.hatenablog.com
金融時系列解析 / 分野一覧 #まとめ編 yhayato1320.hatenablog.com

画像処理

画像処理 / 分野一覧 #まとめ編 yhayato1320.hatenablog.com
画像処理 / Attention #まとめ編 yhayato1320.hatenablog.com
画像処理 / タスク一覧 #まとめ編 yhayato1320.hatenablog.com

物体認識 / 画像分類

画像処理 / 物体認識
#まとめ編
yhayato1320.hatenablog.com

物体検出 / Object Detection

画像処理 / 物体検出
#まとめ編 #00
yhayato1320.hatenablog.com
画像処理 / 物体検出
#まとめ編 #01 (#実装編)
yhayato1320.hatenablog.com
機械学習 / 物体検出 #まとめ編 yhayato1320.hatenablog.com
深層学習 / 物体検出
#まとめ編 #00
yhayato1320.hatenablog.com
深層学習 / 物体検出
#まとめ編 #01 (CNN)
yhayato1320.hatenablog.com
深層学習 / 物体検出 / YOLO
#まとめ編
yhayato1320.hatenablog.com
深層学習 / 物体検出
#まとめ編 #02 (Attention)
yhayato1320.hatenablog.com

複合データ

  • 動画像処理

動画像処理

時系列解析 x 画像処理



分野一覧 #まとめ編 yhayato1320.hatenablog.com
物体追跡 #まとめ編 yhayato1320.hatenablog.com

マルチモーダル

分野一覧 #まとめ編 yhayato1320.hatenablog.com
Natural Language Supervision
#まとめ編
yhayato1320.hatenablog.com
CLIP
#まとめ編
yhayato1320.hatenablog.com

【マルチモーダル】Visual Semantic Embedding / VSE #まとめ編

Index

Visual Semantic Embedding / VSE

マルチモーダルな手法における双方向型のモデルは、画像-言語間の潜在空間を共有する.

その利点は、画像と言語を一対一対応させることで、相互に変換できたり、検索できたりすることが可能になるという点.

このようなアプローチをとる手法として、Visual Semantic Embedding / VSE が挙げられる.

対照学習 / Contrastive Learning

VSE のように、似ているデータ (対応するデータ) はより近く、似ていないデータ (対応していないデータ) はより遠くに embedding が配置されるように潜在空間を学習する方法を、 対照学習 / Contrastive Learning と呼ぶ.

アルゴリズム

Unifying Visual Semantic embeddings / UVS / 2014

  • Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models

VSE++

  • VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

Metric Learning / Distance Learning

似ているデータ (対応するデータ) はより近く、似ていないデータ (対応していないデータ) はより遠くにデータを配置するように学習する 同様のアイディアとして Metric Learning / Distance Learning がある.

アルゴリズム

「Deep Metric Learning Cross Modal」

  • Cross-modal Deep Metric Learning with Multi-task Regularization

  • Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization

タスク

Image Text Similarity

テキストと画像の類似度を推定する Image Text Similarity と非常に関連性が大きい.

参考

  • Deep Multimodal Representation Learning: A Survey

  • Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval

    • [2021]
    • 1 TYPICAL APPROACHES FOR VISUAL-SEMANTIC EMBEDDING
      • 1.1 Methods for Global Image-Text Matching
      • 1.2 Methods for Local Image-Text Matching
      • 1.3 Methods Using Pre-trained Models Employing a Large Corpus of Images and Languages
    • 2 DATASET
    • 3 EVALUATION CRITERIA
    • arxiv.org

書籍

【深層学習】Large Language Model / LLM

Index

Large Language Model / LLM

アルゴリズム

LaMDA / 2022

参考

  • Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Web サイト

【統計学】Multi Output Regression

Index

Multi Output Regression

変数定義

  •  m 次元の説明変数  x
    •  X_{1},\ \cdots,\ X_{m}
  •  d 次元の目的変数  y
    •  Y_{1},\ \cdots,\ Y_{d}
  •  N 件のデータセット :  D
    •  D\ =\ \{(x^{(1)},\ y^{(1)}),\ \cdots,\ (x^{(N)},\ y^{(N)}) \}
  • 回帰関数  h
    •  m 次元から  d 次元への写像
    •  h\ :\ \Omega_{X_{1}}\ \times\ \cdots\ \times\ \Omega_{X_{m}}\ \rightarrow\ \Omega_{Y_{1}}\ \times\ \cdots\ \times\ \Omega_{Y_{d}}

Problem Transformation Methods

Multi Output 形式の問題をSingle Target (Output) の問題に変換する手法.

各目的変数のための予測モデルを構築し、最後に  d 個の予測を連結する手法.

これらの手法の欠点として、目的変数の間の関係が無視されること.

Single Target Method

 d 個の Single Target Model で構成されている.

つまり、学習に利用されるデータセットの形式としては、ある目的変数ごとになるので、以下のようになる.

 D_{i}\ =\ \{(x^{(1)},\ y^{(1)}_{i}),\ \cdots,\ (x^{(N)},\ y^{(N)}_{i})\ |\ i\ \in\ \{1,\ \cdots,\ d\} \}



各目的変数は、個別に予測され、目的変数の間で潜在的な関連を利用することができない.

この手法は、Multi Target Method を Single Target Method に変換しているため、 よく利用される単変数 (Single Target Method) のアルゴリズムをそのまま利用できる.

参考

  • A survey on multi-output regression

【マルチモーダル】Vision-Language #まとめ編

Index

Vision-Language

画像情報と言語情報を組み合わせた課題解決を行う研究分野の総称.

一方向型と双方向型

大きく分けて、一方向型のモデルと双方向型のモデルがあると考えられる.



一方向型のモデルは、Encoder-Decoder 型のモデルで、 例えば、画像を入力として、潜在空間に写像し、潜在空間から、言語を出力する. (Image Caption etc)

一方向型において、両方の変換を同時に考えて、サイクルさせることで、画像と言語の対応関係をより強く紐づける学習ができる.

しかし、このとき、潜在空間は、それぞれ「画像→言語」、「言語→画像」で別々の潜在空間を持つ.

一方、双方向型モデルは、画像と言語で一つの潜在空間を共有する点が一方向型と異なる.

アルゴリズム

Unified-IO / 2022

Parti / 2022

タスク

Text to Image

Image to Text

画像からテキストを生成するタスク.

Image Caption

  • CPTR: Full Transformer Network for Image Captioning

Optical Character Recognition / OCR

画像から文字の位置を検出し (Detection)、文字を認識する (Recognition).

Visual Question Answering / VQA

画像 (Visual) と 質問 (Question / Text) を入力として、解答 (Answer / Text) を出力するタスク.

Image Text Retrieval / ITR

画像テキスト検索.

  • Image-text Retrieval: A Survey on Recent Research and Development

Image Text Similarity

画像とテキストの類似度を推定する.

工夫・テクニック

Visual Semantic Embedding / VSE

双方向型のモデルは、画像-言語間の潜在空間を共有する.

その利点は、画像と言語を一対一対応させることで、相互に変換できたり、検索できたりすることが可能になるという点.

このようなアプローチをとる手法として、Visual Semantic Embedding / VSE が挙げられる.

参考

  • コンピュータービジョン最前線 Winter 2021
    • 5 ニュウモン Vision and Language
      • 5.1 V&L の研究課題
      • 5.2 V&L の難しさ
      • 5.3 V&L を支える基礎技術
        • 5.3.1 V&L のための画像の代表的な特徴量抽出手法
        • 5.3.2 V&L のための自然言語処理手法
        • 5.3.3 シーングラフを用いた V&L
        • 5.3.4 注意機構によるモダリティ統合
      • 5.4 V&L の深層学習モデルの概観 : 一方向型と双方向型のモデル
        • 5.4.1 一方向型のモデル
        • 5.4.2 双方向型のモデル
      • 5.5 近年の新しいパラダイム : Transformer と BERT による大規模事前学習モデル
        • 5.5.1 Transformer モデルの基礎
        • 5.5.2 自己回帰モデルとしての Transformer
        • 5.5.3 BERT 型モデルの基礎
      • 5.6 BERT 型の V&L 事前学習モデル
        • 5.6.1 V&L 事前学習の先駆けとなったモデル : VideoBERT
        • 5.6.2 黎明期のモデル : ViLBERT, VisualBERT, Unicoder-VL, LXMERT, VL-BERT
        • 5.6.3 image-caption の事前学習への適用 : Unified VLP
        • 5.6.4 特徴量の追加 : OSCAR と ERNIE-ViL
        • 5.6.5 UNITER と最適輸送による Word Region Alignment (WRA)
        • 5.6.6 VinVL : OSCAR + 物体検出器の見直し
        • 5.6.7 ViLT : パッチベースの画像処理による高速化
        • 5.6.8 CLIP : 汎用的な VSE による zero-shot 画像認識器
        • 5.6.9 DALL-E : 汎用性のある text to image を実現
        • 5.6.10 BERT 型 V&L モデルの謎

【時系列解析】統計モデル / 確率過程モデル

Index

統計モデル / 確率過程モデル

ARMA 過程 / ARMA モデル

  • ARMA 過程 / ARMA モデル
    • Auto Regression / AR 過程
      • ホワイトノイズの拡張
    • Moving Average / MA 過程
      • ホワイトノイズの拡張
    • yhayato1320.hatenablog.com

ARIMA モデル

Auto Regressive Integrated Moving Average

SARIMA モデル

Seasonal Auto Regressive Integrated Moving Average



単位根過程を前提.

  • 時系列解析手法のSARIMAモデルを試してみた

外部変数付き SARIMA モデル / SARIMAX

VAR モデル

  • VAR モデル
    • AR モデルの拡張
    • Vector Auto Regressive

ARCH モデル

  • Auto Regressive Conditional Heteroskedasticity

GARCH モデル

  • GARCH モデル

【深層学習】Dual Matching Attention Networks / DMAN

Index

Dual Matching Attention Networks / DMAN

Online Multi Object Tracking のアルゴリズム.

Algorithm

Single Object Tracking と Data Association (Re-ID) で構成されている.

Single Object Tracking

単一の物体の情報をどのように保持するか.

Efficient Convolution Operators / ECO

Single Object Tracking のアルゴリズムに Efficient Convolution Operators / ECO を利用.

  • ECO: Efficient Convolution Operators for Tracking

見た目からの情報を利用した高速な Tracking アルゴリズム.

特徴量

Cost-Sensitive Tracking Loss

Data Association / Re-ID

Data Association / Re-ID に 2 つの Attention Networkを利用.



2 つの Attention Network を利用する.

Spatial Attention Network / SAN

Temporal Attention Network / TAN

参考

  • Online Multi-Object Tracking with Dual Matching Attention Networks
    • [2019]
    • 2 Related Work
      • 2.1 Multi-Object Tracking
      • 2.2 Attention Model
      • 2.3 Data Imbalance
    • 3 Proposed Online MOT Algorithm
      • 3.1 Single Object Tracking
      • 3.2 Data Association with Dual Matching Attention Network
    • arxiv.org

【金融時系列解析】Decision Tree #実装編

Index

Decision Tree

Machine Learning におけるアルゴリズムのひとつ.

タスク

データセット

バックテストのために、収集したデータを使用.

設定

設定はこちらを参照.

ハイパラーパラメータのチューニング

  • Random Search を利用してチューニングを行う.

    • timeout : 5 s

  • ハイパーパラメータチューニング / Hyper Parameter Turning

python のライブラリは、optuna を利用.

実装

Training

学習のタイミングを 2 つの方法に分けて、それぞれ精度を比較する.

  • Method 1

    • 学習する入力データが、1 時系列 (最大 60) の状態でも学習を行い、予測を行う
  • Method 2

    • 学習する入力データが、60 時系列以上の場合に、学習を行い、予測を行う
    • 学習する入力データが、60 時系列未満の場合は、取引を行わない