オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Image GPT / iGPT #アルゴリズム編

Index

Image GPT

GPT のアルゴリズムを Image へ適用させた.

GPT 同様、Auto Regressive Model の教師なし学習を用いた生成モデル.

Approach



Image GPT では、Pre Training と Fine Turning の 2 つのステージがある.

Pre Training

Pre Training では、Auto Regression と、BERT の 2 つの形式で行う.



確率モデルの定式化.

あるデータ  x\ =\ (x_{1},\ \cdots,\ x_{n}) がある.  n は、画像のパッチ数.

 p(x)\ =\ \displaystyle \sum_{i=1}^{n}\ p(x_{\pi_{i}}\ |\ x_{\pi_{1}},\ \cdots,\ x_{\pi_{i\ -\ 1}},\ \theta)

Auto Regression Loss

順序が前のパッチのみを利用して、次のパッチを予測するようなモデル.

 \pi_{i}\ =\ i,\ (1\ \leq\ n) となるような順序.

 L_{AR}\ =\ E_{x\ \sim\ X}\ [- \log\ p(x)]

BERT Loss

あるランダムなパッチ  M\ \in\ [1,\ n] をマスクし、その部分の予測を行う.

 L_{BERT}\ =\ E_{x\ \sim\ X}\ E_{M}\ \displaystyle\ \sum_{i\ \in\ M} [- \log\ p(x_{i}\ |\ x_{[1,\ n]\ \backslash\ M})]

Fine Turning

Fine Turning する方法としては、以下の方法で学習を行う.

  • Image Classification
  • 特徴量を利用した Downstream Task / Representation Learning

Architecture

GPT-2 のアーキテクチャを利用.

実装

参考

書籍

Web サイト