オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Visual Semantic Embedding / VSE #まとめ編

Index

Visual Semantic Embedding / VSE

マルチモーダルな手法における双方向型のモデルは、画像-言語間の潜在空間を共有する.

その利点は、画像と言語を一対一対応させることで、相互に変換できたり、検索できたりすることが可能になるという点.

このようなアプローチをとる手法として、Visual Semantic Embedding / VSE が挙げられる.

対照学習 / Contrastive Learning

VSE のように、似ているデータ (対応するデータ) はより近く、似ていないデータ (対応していないデータ) はより遠くに embedding が配置されるように潜在空間を学習する方法を、 対照学習 / Contrastive Learning と呼ぶ.

アルゴリズム

Unifying Visual Semantic embeddings / UVS / 2014

  • Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models

VSE++ / 2018

Metric Learning / Distance Learning

似ているデータ (対応するデータ) はより近く、似ていないデータ (対応していないデータ) はより遠くにデータを配置するように学習する 同様のアイディアとして Metric Learning / Distance Learning がある.

アルゴリズム

「Deep Metric Learning Cross Modal」

  • Cross-modal Deep Metric Learning with Multi-task Regularization

  • Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with Adversarial Discriminative Domain Regularization

タスク

Image Text Similarity

テキストと画像の類似度を推定する Image Text Similarity と非常に関連性が大きい.

参考

  • Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval
    • [2021]
    • 1 TYPICAL APPROACHES FOR VISUAL-SEMANTIC EMBEDDING
      • 1.1 Methods for Global Image-Text Matching
      • 1.2 Methods for Local Image-Text Matching
      • 1.3 Methods Using Pre-trained Models Employing a Large Corpus of Images and Languages
    • 2 DATASET
    • 3 EVALUATION CRITERIA
    • arxiv.org

書籍