Index

Index
Flamingo
事前学習済みモデル
- LLM
Architecture
実装
参考
- Web サイト

Flamingo

1つの学習済みモデルだけで、

Language : テキスト
Vision : 画像、動画

の 2 つのモーダルのデータを同時に、組み合わせて入力できるマルチモーダル AI.

Vision-Language #まとめ編
- yhayato1320.hatenablog.com

LLM と画像エンコーダを Attention で繋ぐことで、画像情報を踏まえた上で、テキスト生成が可能.

画像や動画などのビジュアル学習要素を加えて事前学習を行い、800億のパラメーターを持つ新しい視覚言語モデルとして開発.

事前学習済みモデル

事前学習済みモデルを活用することで、「繋ぎの部分」だけを学習している.

LLM

LLM には、700億のパラメーターを持つ言語モデルの Chinchilla を利用.

Chinchilla
- yhayato1320.hatenablog.com

Architecture

Vision Language Model / VLM

条件付き言語モデルに画像も入力する.

$p(y\ |\ x)\ =\ \displaystyle \prod_{l=1}^{L}\ p(y_{l}\ |\ y_{<\ l},\ x_{\leq\ l})$

$L$ : トークンの数
$y$ : テキストトークン
$x$ : 画像トークン

次のテキストの予測は、それまでのテキストと画像の情報を利用する.

画像エンコーダー / Vision Encoder

画像エンコーダーには、NormalizerFree ResNet / NFNet の事前学習済みモデルを採用.

High-Performance Large-Scale Image Recognition Without Normalization

[2021]
arxiv.org

Perceiver Resampler

Visual Encoder から抽出された情報を整理し、次元削減する.

学習対象.

Cross Attention

Visual Encoder からの情報を、Decoder からの情報に加える.

実装

github.com
- github

参考

Flamingo: a Visual Language Model for Few-Shot Learning
- [2022]
- 2 Approach
  - 2.1 Visual processing and the Perceiver Resampler
  - 2.2 Conditioning frozen language models on visual representations
- arxiv.org

Web サイト

NeurIPS 2022 参加報告後編
- 大規模言語モデル
  - 視覚言語モデル
- blog.recruit.co.jp
ANNOUNCING OPENFLAMINGO: AN OPEN-SOURCE FRAMEWORK FOR TRAINING VISION-LANGUAGE MODELS WITH IN-CONTEXT LEARNING
- laion.ai

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Flamingo