オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Image GPT / iGPT #アルゴリズム編

データサイエンスデータサイエンス-深層学習

Index

Index
Image GPT
Approach
- Pre Training
  - Auto Regression Loss
  - BERT Loss
- Fine Turning
Architecture
実装
参考
- 書籍
- Web サイト

Image GPT

GPT のアルゴリズムを Image へ適用させた.

GPT #まとめ編
- yhayato1320.hatenablog.com

GPT 同様、Auto Regressive Model の教師なし学習を用いた生成モデル.

Auto Regressive Model / 自己回帰モデル
- Transformer を利用した手法
- yhayato1320.hatenablog.com
教師なし学習 / Unsupervised Learning
- yhayato1320.hatenablog.com
生成モデル / Generative Model
- yhayato1320.hatenablog.com

Approach

Image GPT では、Pre Training と Fine Turning の 2 つのステージがある.

Pre Training

Pre Training では、Auto Regression と、BERT の 2 つの形式で行う.

確率モデルの定式化.

あるデータ $x\ =\ (x_{1},\ \cdots,\ x_{n})$ がある. $n$ は、画像のパッチ数.

$p(x)\ =\ \displaystyle \sum_{i=1}^{n}\ p(x_{\pi_{i}}\ |\ x_{\pi_{1}},\ \cdots,\ x_{\pi_{i\ -\ 1}},\ \theta)$

Auto Regression Loss

順序が前のパッチのみを利用して、次のパッチを予測するようなモデル.

$\pi_{i}\ =\ i,\ (1\ \leq\ n)$ となるような順序.

$L_{AR}\ =\ E_{x\ \sim\ X}\ [- \log\ p(x)]$

BERT Loss

あるランダムなパッチ $M\ \in\ [1,\ n]$ をマスクし、その部分の予測を行う.

$L_{BERT}\ =\ E_{x\ \sim\ X}\ E_{M}\ \displaystyle\ \sum_{i\ \in\ M} [- \log\ p(x_{i}\ |\ x_{[1,\ n]\ \backslash\ M})]$

Fine Turning

Fine Turning する方法としては、以下の方法で学習を行う.

Image Classification
特徴量を利用した Downstream Task / Representation Learning

Architecture

GPT-2 のアーキテクチャを利用.

実装

Image GPT #実装編
- yhayato1320.hatenablog.com

参考

Generative Pretraining from Pixels
- [2020 OpenAI]
- Abstract
- 2 Approach
  - 2.1 Pre-training
  - 2.2 Architecture
  - 2.3 Fine-tuning
  - 2.4 Linear Probing
- https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf

書籍

BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理人工知能プログラミング実践入門
- 5 GPT-3・Vision Transformer・CLIP・Image GPT・DALL-E
  - 5.4 Image GPT による半分画像から画像生成
- BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理人工知能プログラミング実践入門
  - 作者:布留川英一
  - ボーンデジタル
  Amazon
Vision Transformer入門
- 1 Transformer から Vision Transformer への進化
  - 1.3 コンピュータビジョンにおける Transformer
    - 1.3.2 iGPT による画像の補間
- Vision Transformer入門 Computer Vision Library
  - 作者:山本晋太郎,徳永匡臣,箕浦大晃,邱玥（QIU YUE）,品川政太朗
  - 技術評論社
  Amazon

Web サイト

【論文解説】Image GPTを理解する
- data-analytics.fun
paperswithcode.com
- paper with code の paper のページ