オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Vision-Language #まとめ編

Index

Vision-Language

画像情報と言語情報を組み合わせた課題解決を行う研究分野の総称.

一方向型と双方向型

大きく分けて、一方向型のモデルと双方向型のモデルがあると考えられる.



一方向型のモデルは、Encoder-Decoder 型のモデルで、 例えば、画像を入力として、潜在空間に写像し、潜在空間から、言語を出力する. (Image Caption etc)

一方向型において、両方の変換を同時に考えて、サイクルさせることで、画像と言語の対応関係をより強く紐づける学習ができる.

しかし、このとき、潜在空間は、それぞれ「画像→言語」、「言語→画像」で別々の潜在空間を持つ.

一方、双方向型モデルは、画像と言語で一つの潜在空間を共有する点が一方向型と異なる.

アルゴリズム

Unified-IO / 2022

Parti / 2022

タスク

Text to Image

Text から Image を生成する Vision-Language のマルチモーダルなタスク.

Image to Text

画像からテキストを生成するタスク.

Image Caption

画像を入力とし、画像を説明するテキストを出力する.

Optical Character Recognition / OCR

画像から文字の位置を検出し (Detection)、文字を認識する (Recognition).

Visual Question Answering / VQA

画像 (Visual) と 質問 (Question / Text) を入力として、解答 (Answer / Text) を出力するタスク.

Image Text Retrieval / ITR

画像テキスト検索.

  • Image-text Retrieval: A Survey on Recent Research and Development

Image Text Similarity

画像とテキストの類似度を推定する.

Vision-Language Navigation

3D 環境内のエージェントに対して、テキストで指示をすることで、行動させるマルチモーダルなタスク.

工夫・テクニック

Visual Semantic Embedding / VSE

双方向型のモデルは、画像-言語間の潜在空間を共有する.

その利点は、画像と言語を一対一対応させることで、相互に変換できたり、検索できたりすることが可能になるという点.

このようなアプローチをとる手法として、Visual Semantic Embedding / VSE が挙げられる.

参考

書籍

  • コンピュータービジョン最前線 Winter 2021
    • 5 ニュウモン Vision and Language
      • 5.1 V&L の研究課題
      • 5.2 V&L の難しさ
      • 5.3 V&L を支える基礎技術
        • 5.3.1 V&L のための画像の代表的な特徴量抽出手法
        • 5.3.2 V&L のための自然言語処理手法
        • 5.3.3 シーングラフを用いた V&L
        • 5.3.4 注意機構によるモダリティ統合
      • 5.4 V&L の深層学習モデルの概観 : 一方向型と双方向型のモデル
        • 5.4.1 一方向型のモデル
        • 5.4.2 双方向型のモデル
      • 5.5 近年の新しいパラダイム : Transformer と BERT による大規模事前学習モデル
        • 5.5.1 Transformer モデルの基礎
        • 5.5.2 自己回帰モデルとしての Transformer
        • 5.5.3 BERT 型モデルの基礎
      • 5.6 BERT 型の V&L 事前学習モデル
        • 5.6.1 V&L 事前学習の先駆けとなったモデル : VideoBERT
        • 5.6.2 黎明期のモデル : ViLBERT, VisualBERT, Unicoder-VL, LXMERT, VL-BERT
        • 5.6.3 image-caption の事前学習への適用 : Unified VLP
        • 5.6.4 特徴量の追加 : OSCAR と ERNIE-ViL
        • 5.6.5 UNITER と最適輸送による Word Region Alignment (WRA)
        • 5.6.6 VinVL : OSCAR + 物体検出器の見直し
        • 5.6.7 ViLT : パッチベースの画像処理による高速化
        • 5.6.8 CLIP : 汎用的な VSE による zero-shot 画像認識器
        • 5.6.9 DALL-E : 汎用性のある text to image を実現
        • 5.6.10 BERT 型 V&L モデルの謎

Web