オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Image Text Similarity

Index

Image Text Similarity

画像とテキストの類似度を推定するマルチモーダルなタスク.

表現学習 / Representation Learning

各モーダルからの特徴量の抽出し、その特徴量を表現空間内の表現ベクトルとして扱う考え.

表現空間内の関連する (もしくは、関連しない) データ点を、適切に写像する関数を 距離学習 / Metric Learning などで学習する.

Metric Learning / Distance Learning

各モーダルの特徴量を表現ベクトルとして扱い、関連する (もしくは、関連しない) データ点を、適切に写像する関数を Metric Learning / Distance Learning の考えの下、学習する.

アルゴリズム

Embedding and Similarity Networks / 2017

CLIP / 2021

CLOOB / 2021

工夫・テクニック

Visual Semantic Embedding / VSE

実装

参考