Index
- Index
- Vision-Language
- アルゴリズム
- CLIP / 2021
- A Large-scale ImaGe and Noisy-text embedding / ALIGN / 2021
- Uni-Perceiver / 2021
- Unified-IO / 2022
- Flamingo / 2022
- Textless Vision-Language Transformer / TVL / 2022
- Multi-modal Generator / MUG / 2023
- TransFusion / 2023
- FROMAGe / 2023
- Concept Algebra / 2023
- UniAdapter / 2023
- Language Quantized AutoEncoders / LQAE / 2023
- INFO SEEK / 2023
- GIVL / 2023
- ELITE / 2023
- Cascade of Foundation / CaFo / 2023
- Prismer / 2023
- PaLM-E / 2023
- Tag2Text / 2023
- CHAMPAGNE / 2023
- MaMMUT / 2023
- Mask-free OVIS / 2023
- Locked-image Tuning with Decoder / LiT-decoder / 2023
- Image-specific Prompt Learning / IPL
- Segment Everything Everywhere All at Once / 2023
- MERU / 2023
- Dream LLM / 2023
- タスク
- 工夫・テクニック
- 参考
Vision-Language
画像情報と言語情報を組み合わせた課題解決を行う研究分野の総称.
マルチモーダル #まとめ編
タスク一覧
- マルチモーダルにおけるタスク
- yhayato1320.hatenablog.com
一方向型と双方向型
大きく分けて、一方向型のモデルと双方向型のモデルがあると考えられる.
一方向型のモデルは、Encoder-Decoder 型のモデルで、
例えば、画像を入力として、潜在空間に写像し、潜在空間から、言語を出力する. (Image Caption etc)
一方向型において、両方の変換を同時に考えて、サイクルさせることで、画像と言語の対応関係をより強く紐づける学習ができる.
しかし、このとき、潜在空間は、それぞれ「画像→言語」、「言語→画像」で別々の潜在空間を持つ.
一方、双方向型モデルは、画像と言語で一つの潜在空間を共有する点が一方向型と異なる.
アルゴリズム
CLIP / 2021
A Large-scale ImaGe and Noisy-text embedding / ALIGN / 2021
Uni-Perceiver / 2021
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks
- [2021]
- arxiv.org
Uni-Perceiver-MoE / 2022
- Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs
- [2022]
- arxiv.org
Uni-Perceiver v2 / 2022
- Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks
- [2022]
- arxiv.org
Unified-IO / 2022
Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks
Unified-IO
Flamingo / 2022
2022年4月に DeepMind チームは、1つの機械学習モデルだけで、テキスト、画像、動画を同時に組み合わせて理解できるマルチモーダル AI の Flamingo を発表.
Flamingo は、DeepMind が2022年4月に発表した700億のパラメーターを持つ言語モデルの Chinchilla を利用し、
これに、画像や動画などのビジュアル学習要素を加えて事前学習を行い、800億のパラメーターを持つ新しい視覚言語モデルとして開発.
- Flamingo
Textless Vision-Language Transformer / TVL / 2022
Multi-modal Generator / MUG / 2023
Self Supervised Learning を利用した Vision Language の生成モデル.
TransFusion / 2023
- Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction
- [2023]
- arxiv.org
FROMAGe / 2023
Grounding Language Models to Images for Multimodal Generation
- [2022]
- arxiv.org
-
- huggingface
Concept Algebra / 2023
UniAdapter / 2023
- UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling
- [2023]
- arxiv.org
Language Quantized AutoEncoders / LQAE / 2023
画像を量子符号化した結果が言語由来の符号と揃うよう、
符号化した結果をマスクした部分をBERTの復号化器で復号化する損失を使って学習する.
デノイジングできる=スコアが同じ=同じ確率空間にいるという思想はDreamFusionに共通する.
- Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment
- [2023]
- arxiv.org
INFO SEEK / 2023
- Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
GIVL / 2023
- GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods
- [2023]
- arxiv.org
ELITE / 2023
- ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation
- [2023]
- arxiv.org
- github.com
- huggingface.co
Cascade of Foundation / CaFo / 2023
- Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners
- [2023]
- arxiv.org
- github.com
Prismer / 2023
PaLM-E / 2023
言語と視覚情報を組み合わせ,ロボットの操作や,視覚からの質問応答など,いろんなタスクを解ける.
Tag2Text / 2023
CHAMPAGNE / 2023
視覚的な情報を組み込んだ会話モデル.
- CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos
- [2023]
- arxiv.org
- seungjuhan.me
MaMMUT / 2023
- MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks
- [2023]
- arxiv.org
- ai.googleblog.com
Mask-free OVIS / 2023
- Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual Mask Annotations
- [2023]
- arxiv.org
- vibashan.github.io
Locked-image Tuning with Decoder / LiT-decoder / 2023
- A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision
- [2023]
- arxiv.org
Image-specific Prompt Learning / IPL
CLIP の改善.
- Zero-shot Generative Model Adaptation via Image-specific Prompt Learning
- [2023]
- arxiv.org
- github.com
Segment Everything Everywhere All at Once / 2023
- Segment Everything Everywhere All at Once
- [2023]
- arxiv.org
MERU / 2023
- Hyperbolic Image-Text Representations
- [2023]
- arxiv.org
Dream LLM / 2023
- Dream LLM
タスク
Text to Image
Text から Image を生成する Vision-Language のマルチモーダルなタスク.
- Text to Image
Image to Text
画像からテキストを生成するタスク.
- paperswithcode.com
- paper with code のタスクのページ
Image Caption
画像を入力とし、画像を説明するテキストを出力する.
- Image Caption #まとめ編
Optical Character Recognition / OCR
画像から文字の位置を検出し (Detection)、文字を認識する (Recognition).
- Optical Character Recognition / OCR
Visual Question Answering / VQA
画像 (Visual) と 質問 (Question / Text) を入力として、解答 (Answer / Text) を出力するタスク.
- Visual Question Answering / VQA
Image Text Retrieval / ITR
画像テキスト検索.
- Image-text Retrieval: A Survey on Recent Research and Development
- survey 論文
- arxiv.org
Image Text Similarity
画像とテキストの類似度を推定する.
- Image Text Similarity
Vision-Language Navigation
3D 環境内のエージェントに対して、テキストで指示をすることで、行動させるマルチモーダルなタスク.
- Vision-Language Navigation
Phrase Grounding
文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスク.
- Phrase Grounding
工夫・テクニック
Visual Semantic Embedding / VSE
双方向型のモデルは、画像-言語間の潜在空間を共有する.
その利点は、画像と言語を一対一対応させることで、相互に変換できたり、検索できたりすることが可能になるという点.
このようなアプローチをとる手法として、Visual Semantic Embedding / VSE が挙げられる.
- Visual Semantic Embedding / VSE
- Metric Learning / Distance Learning
- yhayato1320.hatenablog.com
Generative Model
- Generative Model
Pre Training
Sigmoid Loss / 2023
- Sigmoid Loss for Language Image Pre-Training
- [2023]
- arxiv.org
MoE
Propting
Video Language Pretraining / VLP / 2022
- Egocentric Video-Language Pretraining
- [2022]
- arxiv.org
teaching-clip-to-count / 2023
- Teaching CLIP to Count to Ten
lgssl / 2023
- Learning Visual Representations via Language-Guided Sampling
- [2023]
- arxiv.org
- github.com
Prompt Pre-Training / POMP / 2023
- Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition
- [2023]
- arxiv.org
参考
書籍
- コンピュータービジョン最前線 Winter 2021
- 5 ニュウモン Vision and Language
- 5.1 V&L の研究課題
- 5.2 V&L の難しさ
- 5.3 V&L を支える基礎技術
- 5.3.1 V&L のための画像の代表的な特徴量抽出手法
- 5.3.2 V&L のための自然言語処理手法
- 5.3.3 シーングラフを用いた V&L
- 5.3.4 注意機構によるモダリティ統合
- 5.4 V&L の深層学習モデルの概観 : 一方向型と双方向型のモデル
- 5.4.1 一方向型のモデル
- 5.4.2 双方向型のモデル
- 5.5 近年の新しいパラダイム : Transformer と BERT による大規模事前学習モデル
- 5.5.1 Transformer モデルの基礎
- 5.5.2 自己回帰モデルとしての Transformer
- 5.5.3 BERT 型モデルの基礎
- 5.6 BERT 型の V&L 事前学習モデル
- 5.6.1 V&L 事前学習の先駆けとなったモデル : VideoBERT
- 5.6.2 黎明期のモデル : ViLBERT, VisualBERT, Unicoder-VL, LXMERT, VL-BERT
- 5.6.3 image-caption の事前学習への適用 : Unified VLP
- 5.6.4 特徴量の追加 : OSCAR と ERNIE-ViL
- 5.6.5 UNITER と最適輸送による Word Region Alignment (WRA)
- 5.6.6 VinVL : OSCAR + 物体検出器の見直し
- 5.6.7 ViLT : パッチベースの画像処理による高速化
- 5.6.8 CLIP : 汎用的な VSE による zero-shot 画像認識器
- 5.6.9 DALL-E : 汎用性のある text to image を実現
- 5.6.10 BERT 型 V&L モデルの謎
- 5 ニュウモン Vision and Language
Web
これからの Vision & Language ~ Acadexit した4つの理由
- 2019
- www.slideshare.net
Vision and Languageと分野を取り巻く深層学習手法の紹介
- 2021
- speakerdeck.com
Vision and Language とその先へ
- 2022
- データセット : P112 ~
- speakerdeck.com
NLPとVision-and-Languageの基礎・最新動向 (2) / DEIM Tutorial Part 2 Vision-and-Language
Collaborative AI: 視覚・言語・行動の融合
最近話題の Vision-Languageモデル まとめ