オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Flamingo

Index

Flamingo

1つの学習済みモデルだけで、

  • Language : テキスト
  • Vision : 画像、動画

の 2 つのモーダルのデータを同時に、組み合わせて入力できるマルチモーダル AI.

LLM と画像エンコーダを Attention で繋ぐことで、画像情報を踏まえた上で、テキスト生成が可能.



画像や動画などのビジュアル学習要素を加えて事前学習を行い、800億のパラメーターを持つ新しい視覚言語モデルとして開発.

事前学習済みモデル

事前学習済みモデルを活用することで、「繋ぎの部分」だけを学習している.

LLM

LLM には、700億のパラメーターを持つ言語モデルの Chinchilla を利用.

Architecture

Vision Language Model / VLM

条件付き言語モデルに画像も入力する.

 p(y\ |\ x)\ =\ \displaystyle \prod_{l=1}^{L}\ p(y_{l}\ |\ y_{<\ l},\ x_{\leq\ l})




次のテキストの予測は、それまでのテキストと画像の情報を利用する.

画像エンコーダー / Vision Encoder



画像エンコーダーには、NormalizerFree ResNet / NFNet の事前学習済みモデルを採用.

  • High-Performance Large-Scale Image Recognition Without Normalization

Perceiver Resampler



Visual Encoder から抽出された情報を整理し、次元削減する.

学習対象.

Cross Attention



Visual Encoder からの情報を、Decoder からの情報に加える.

実装

参考

  • Flamingo: a Visual Language Model for Few-Shot Learning
    • [2022]
    • 2 Approach
      • 2.1 Visual processing and the Perceiver Resampler
      • 2.2 Conditioning frozen language models on visual representations
    • arxiv.org

Web サイト