オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Vision-Language #まとめ編

Index

Vision-Language

画像情報と言語情報を組み合わせた課題解決を行う研究分野の総称.

一方向型と双方向型

大きく分けて、一方向型のモデルと双方向型のモデルがあると考えられる.



一方向型のモデルは、Encoder-Decoder 型のモデルで、 例えば、画像を入力として、潜在空間に写像し、潜在空間から、言語を出力する. (Image Caption etc)

一方向型において、両方の変換を同時に考えて、サイクルさせることで、画像と言語の対応関係をより強く紐づける学習ができる.

しかし、このとき、潜在空間は、それぞれ「画像→言語」、「言語→画像」で別々の潜在空間を持つ.

一方、双方向型モデルは、画像と言語で一つの潜在空間を共有する点が一方向型と異なる.

アルゴリズム

CLIP / 2021



A Large-scale ImaGe and Noisy-text embedding / ALIGN / 2021



Uni-Perceiver / 2021

  • Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks

  • github.com

Uni-Perceiver-MoE / 2022

  • Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs

Uni-Perceiver v2 / 2022

Unified-IO / 2022

Flamingo / 2022

2022年4月に DeepMind チームは、1つの機械学習モデルだけで、テキスト、画像、動画を同時に組み合わせて理解できるマルチモーダル AI の Flamingo を発表.

Flamingo は、DeepMind が2022年4月に発表した700億のパラメーターを持つ言語モデルの Chinchilla を利用し、 これに、画像や動画などのビジュアル学習要素を加えて事前学習を行い、800億のパラメーターを持つ新しい視覚言語モデルとして開発.

Textless Vision-Language Transformer / TVL / 2022

Multi-modal Generator / MUG / 2023

Self Supervised Learning を利用した Vision Language の生成モデル.

TransFusion / 2023

  • Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction

FROMAGe / 2023

Concept Algebra / 2023

UniAdapter / 2023

  • UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

Language Quantized AutoEncoders / LQAE / 2023

画像を量子符号化した結果が言語由来の符号と揃うよう、 符号化した結果をマスクした部分をBERTの復号化器で復号化する損失を使って学習する.

デノイジングできる=スコアが同じ=同じ確率空間にいるという思想はDreamFusionに共通する.



  • Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment

INFO SEEK / 2023

GIVL / 2023

  • GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods

ELITE / 2023

Cascade of Foundation / CaFo / 2023



Prismer / 2023

  • Prismer: A Vision-Language Model with An Ensemble of Experts

PaLM-E / 2023

GPTを超える5600億パラメータを持つ最大規模の大規模言語モデルだったPaLMに, 視覚処理の機構(Vision Transformer)を統合したPaLM-E-562B(5620億パラメータ)をGoogleが発表.

言語と視覚情報を組み合わせ,ロボットの操作や,視覚からの質問応答など,いろんなタスクを解ける.



Tag2Text / 2023

CHAMPAGNE / 2023

視覚的な情報を組み込んだ会話モデル.

MaMMUT / 2023

Mask-free OVIS / 2023

Locked-image Tuning with Decoder / LiT-decoder / 2023

Image-specific Prompt Learning / IPL

CLIP の改善.

  • Zero-shot Generative Model Adaptation via Image-specific Prompt Learning

Segment Everything Everywhere All at Once / 2023

  • Segment Everything Everywhere All at Once

MERU / 2023

  • Hyperbolic Image-Text Representations

Dream LLM / 2023

タスク

Text to Image

Text から Image を生成する Vision-Language のマルチモーダルなタスク.

Image to Text

画像からテキストを生成するタスク.

Image Caption

画像を入力とし、画像を説明するテキストを出力する.

Optical Character Recognition / OCR

画像から文字の位置を検出し (Detection)、文字を認識する (Recognition).

Visual Question Answering / VQA

画像 (Visual) と 質問 (Question / Text) を入力として、解答 (Answer / Text) を出力するタスク.

Image Text Retrieval / ITR

画像テキスト検索.

  • Image-text Retrieval: A Survey on Recent Research and Development

Image Text Similarity

画像とテキストの類似度を推定する.

Vision-Language Navigation

3D 環境内のエージェントに対して、テキストで指示をすることで、行動させるマルチモーダルなタスク.

Phrase Grounding

文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスク.

工夫・テクニック

Visual Semantic Embedding / VSE

双方向型のモデルは、画像-言語間の潜在空間を共有する.

その利点は、画像と言語を一対一対応させることで、相互に変換できたり、検索できたりすることが可能になるという点.

このようなアプローチをとる手法として、Visual Semantic Embedding / VSE が挙げられる.

Generative Model

Pre Training

Sigmoid Loss / 2023

  • Sigmoid Loss for Language Image Pre-Training

MoE

  • Scaling Vision-Language Models with Sparse Mixture of Experts

Propting

Video Language Pretraining / VLP / 2022

  • Egocentric Video-Language Pretraining

teaching-clip-to-count / 2023

lgssl / 2023

Prompt Pre-Training / POMP / 2023



  • Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition

参考

書籍

  • コンピュータービジョン最前線 Winter 2021
    • 5 ニュウモン Vision and Language
      • 5.1 V&L の研究課題
      • 5.2 V&L の難しさ
      • 5.3 V&L を支える基礎技術
        • 5.3.1 V&L のための画像の代表的な特徴量抽出手法
        • 5.3.2 V&L のための自然言語処理手法
        • 5.3.3 シーングラフを用いた V&L
        • 5.3.4 注意機構によるモダリティ統合
      • 5.4 V&L の深層学習モデルの概観 : 一方向型と双方向型のモデル
        • 5.4.1 一方向型のモデル
        • 5.4.2 双方向型のモデル
      • 5.5 近年の新しいパラダイム : Transformer と BERT による大規模事前学習モデル
        • 5.5.1 Transformer モデルの基礎
        • 5.5.2 自己回帰モデルとしての Transformer
        • 5.5.3 BERT 型モデルの基礎
      • 5.6 BERT 型の V&L 事前学習モデル
        • 5.6.1 V&L 事前学習の先駆けとなったモデル : VideoBERT
        • 5.6.2 黎明期のモデル : ViLBERT, VisualBERT, Unicoder-VL, LXMERT, VL-BERT
        • 5.6.3 image-caption の事前学習への適用 : Unified VLP
        • 5.6.4 特徴量の追加 : OSCAR と ERNIE-ViL
        • 5.6.5 UNITER と最適輸送による Word Region Alignment (WRA)
        • 5.6.6 VinVL : OSCAR + 物体検出器の見直し
        • 5.6.7 ViLT : パッチベースの画像処理による高速化
        • 5.6.8 CLIP : 汎用的な VSE による zero-shot 画像認識器
        • 5.6.9 DALL-E : 汎用性のある text to image を実現
        • 5.6.10 BERT 型 V&L モデルの謎

Web