Index
Flamingo
1つの学習済みモデルだけで、
- Language : テキスト
- Vision : 画像、動画
の 2 つのモーダルのデータを同時に、組み合わせて入力できるマルチモーダル AI.
- Vision-Language #まとめ編
LLM と画像エンコーダを Attention で繋ぐことで、画像情報を踏まえた上で、テキスト生成が可能.
画像や動画などのビジュアル学習要素を加えて事前学習を行い、800億のパラメーターを持つ新しい視覚言語モデルとして開発.
事前学習済みモデル
事前学習済みモデルを活用することで、「繋ぎの部分」だけを学習している.
LLM
LLM には、700億のパラメーターを持つ言語モデルの Chinchilla を利用.
- Chinchilla
Architecture
Vision Language Model / VLM
条件付き言語モデルに画像も入力する.
次のテキストの予測は、それまでのテキストと画像の情報を利用する.
画像エンコーダー / Vision Encoder
画像エンコーダーには、NormalizerFree ResNet / NFNet の事前学習済みモデルを採用.
- High-Performance Large-Scale Image Recognition Without Normalization
- [2021]
- arxiv.org
Perceiver Resampler
Visual Encoder から抽出された情報を整理し、次元削減する.
学習対象.
Cross Attention
Visual Encoder からの情報を、Decoder からの情報に加える.
実装
参考
- Flamingo: a Visual Language Model for Few-Shot Learning
- [2022]
- 2 Approach
- 2.1 Visual processing and the Perceiver Resampler
- 2.2 Conditioning frozen language models on visual representations
- arxiv.org
Web サイト
NeurIPS 2022 参加報告 後編
- 大規模言語モデル
- 視覚言語モデル
- blog.recruit.co.jp
- 大規模言語モデル
ANNOUNCING OPENFLAMINGO: AN OPEN-SOURCE FRAMEWORK FOR TRAINING VISION-LANGUAGE MODELS WITH IN-CONTEXT LEARNING