オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Visual Semantic Embedding / VSE #まとめ編

Index

Index
Visual Semantic Embedding / VSE
- 対照学習 / Contrastive Learning
アルゴリズム
応用
- DT-RNN / 2014
Metric Learning / Distance Learning
- アルゴリズム
タスク
- Image Text Similarity
参考
- 書籍

Visual Semantic Embedding / VSE

マルチモーダルな手法における双方向型のモデルは、画像-言語間の潜在空間を共有する.

Vision-Language
- yhayato1320.hatenablog.com

その利点は、画像と言語を一対一対応させることで、相互に変換できたり、検索できたりすることが可能になるという点.

このようなアプローチをとる手法として、Visual Semantic Embedding / VSE が挙げられる.

対照学習 / Contrastive Learning

VSE のように、似ているデータ (対応するデータ) はより近く、似ていないデータ (対応していないデータ) はより遠くに embedding が配置されるように潜在空間を学習する方法を、 対照学習 / Contrastive Learning と呼ぶ.

対照学習 / Contrastive Learning
- yhayato1320.hatenablog.com

アルゴリズム

DeViSE / 2013

DeViSE: A Deep Visual-Semantic Embedding Model
- [2013]
- papers.nips.cc

Unifying Visual Semantic embeddings / UVS / 2014

Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
- [2014]
- arxiv.org

VSE++ / 2018

VSE++
- yhayato1320.hatenablog.com

応用

DT-RNN / 2014

Grounded Compositional Semantics for Finding and Describing Images with Sentences
- [2014]
- aclanthology.org

Metric Learning / Distance Learning

似ているデータ (対応するデータ) はより近く、似ていないデータ (対応していないデータ) はより遠くにデータを配置するように学習する同様のアイディアとして Metric Learning / Distance Learning がある.

Metric Learning / Distance Learning
- yhayato1320.hatenablog.com

アルゴリズム

Cross-modal Deep Metric Learning with Multi-task Regularization
- [2017]
- arxiv.org
Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization
- [2020]
- arxiv.org

タスク

Image Text Similarity

テキストと画像の類似度を推定する Image Text Similarity と非常に関連性が大きい.

Image Text Similarity
- yhayato1320.hatenablog.com

参考

Deep Multimodal Representation Learning: A Survey
- [2019]
- ieeexplore.ieee.org

Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval

[2021]
1 TYPICAL APPROACHES FOR VISUAL-SEMANTIC EMBEDDING

1.1 Methods for Global Image-Text Matching
1.2 Methods for Local Image-Text Matching
1.3 Methods Using Pre-trained Models Employing a Large Corpus of Images and Languages

2 DATASET
3 EVALUATION CRITERIA
arxiv.org

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
- [2021]
- 2 Related Work
  - VSE
- arxiv.org

書籍

コンピュータービジョン最前線 Winter 2021
- 5 ニュウモン Vision and Language
  - 5.4 V&L の深層学習モデルの概観 : 一方向型と双方向型のモデル
    - 5.4.2 双方向型のモデル
  - 5.6 BERT 型の V&L 事前学習モデル
    - 5.6.8 CLIP : 汎用的な VSE による zero-shot 画像認識器
- コンピュータビジョン最前線 Winter 2021
  - 作者:井尻善久,牛久祥孝,片岡裕雄,藤吉弘亘
  - 共立出版
  Amazon