Index
Image GPT
GPT のアルゴリズムを Image へ適用させた.
- GPT #まとめ編
GPT 同様、Auto Regressive Model の教師なし学習を用いた生成モデル.
Auto Regressive Model / 自己回帰モデル
- Transformer を利用した手法
- yhayato1320.hatenablog.com
教師なし学習 / Unsupervised Learning
生成モデル / Generative Model
Approach
Image GPT では、Pre Training と Fine Turning の 2 つのステージがある.
Pre Training
Pre Training では、Auto Regression と、BERT の 2 つの形式で行う.
確率モデルの定式化.
あるデータ がある. は、画像のパッチ数.
あるデータ がある. は、画像のパッチ数.
Auto Regression Loss
順序が前のパッチのみを利用して、次のパッチを予測するようなモデル.
となるような順序.
BERT Loss
あるランダムなパッチ をマスクし、その部分の予測を行う.
Fine Turning
Fine Turning する方法としては、以下の方法で学習を行う.
- Image Classification
- 特徴量を利用した Downstream Task / Representation Learning
Architecture
GPT-2 のアーキテクチャを利用.
実装
- Image GPT #実装編
参考
- Generative Pretraining from Pixels
- [2020 OpenAI]
- Abstract
- 2 Approach
- 2.1 Pre-training
- 2.2 Architecture
- 2.3 Fine-tuning
- 2.4 Linear Probing
- https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf
書籍
BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理 人工知能プログラミング実践入門
- 5 GPT-3・Vision Transformer・CLIP・Image GPT・DALL-E
- 5.4 Image GPT による半分画像から画像生成
-
- 5 GPT-3・Vision Transformer・CLIP・Image GPT・DALL-E
Vision Transformer入門
- 1 Transformer から Vision Transformer への進化
- 1.3 コンピュータビジョンにおける Transformer
- 1.3.2 iGPT による画像の補間
- 1.3 コンピュータビジョンにおける Transformer
- 1 Transformer から Vision Transformer への進化
Web サイト
【論文解説】Image GPTを理解する
-
- paper with code の paper のページ