Index
Visual Semantic Embedding / VSE
マルチモーダルな手法における双方向型のモデルは、画像-言語間の潜在空間を共有する.
- Vision-Language
その利点は、画像と言語を一対一対応させることで、相互に変換できたり、検索できたりすることが可能になるという点.
このようなアプローチをとる手法として、Visual Semantic Embedding / VSE が挙げられる.
対照学習 / Contrastive Learning
VSE のように、似ているデータ (対応するデータ) はより近く、似ていないデータ (対応していないデータ) はより遠くに
embedding が配置されるように潜在空間を学習する方法を、 対照学習 / Contrastive Learning と呼ぶ.
- 対照学習 / Contrastive Learning
アルゴリズム
DeViSE / 2013
- DeViSE: A Deep Visual-Semantic Embedding Model
- [2013]
- papers.nips.cc
Unifying Visual Semantic embeddings / UVS / 2014
- Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
- [2014]
- arxiv.org
VSE++ / 2018
応用
DT-RNN / 2014
- Grounded Compositional Semantics for Finding and Describing Images with Sentences
- [2014]
- aclanthology.org
Metric Learning / Distance Learning
似ているデータ (対応するデータ) はより近く、似ていないデータ (対応していないデータ) はより遠くにデータを配置するように学習する
同様のアイディアとして Metric Learning / Distance Learning がある.
- Metric Learning / Distance Learning
アルゴリズム
Cross-modal Deep Metric Learning with Multi-task Regularization
- [2017]
- arxiv.org
Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization
- [2020]
- arxiv.org
タスク
Image Text Similarity
テキストと画像の類似度を推定する Image Text Similarity と非常に関連性が大きい.
- Image Text Similarity
参考
- Deep Multimodal Representation Learning: A Survey
- [2019]
- ieeexplore.ieee.org
- Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval
- [2021]
-
- 1 TYPICAL APPROACHES FOR VISUAL-SEMANTIC EMBEDDING
- 1.1 Methods for Global Image-Text Matching
- 1.2 Methods for Local Image-Text Matching
- 1.3 Methods Using Pre-trained Models Employing a Large Corpus of Images and Languages
- 2 DATASET
- 3 EVALUATION CRITERIA
- arxiv.org
- Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision