オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Natural Language Supervision #まとめ編

データサイエンスデータサイエンス-マルチモーダル

Index

Index
Natural Language Supervision
アルゴリズム
参考

Natural Language Supervision

ラベルのついた教師データではなく、生の自然言語を画像予測のタスクの教師に利用する手法.

マルチモーダル
- yhayato1320.hatenablog.com

従来の画像分類

機械学習・深層学習の画像分類 / 物体認識では、事前に決定された物体のカテゴリリストを予測するように学習する.

このカテゴリのリストは無限ではなく、データセットとして用意できる範囲であり、それは一般性を制限してしまう.

自然言語を教師データに

テキストと画像のペアを用いて学習するというアイディア.

従来の画像に対応するラベルを用意する手法と比べ、アノテーションの手間がないため、データの増強が容易に可能.

利点

従来の「画像に対応するラベルを用意する手法」と比べ、
アノテーションやラベリングの手間が少ないため、データセット作成のコストが少なくなる.

そのため、データセットの量を容易に増加・増強することが可能になる.

アルゴリズム

Visual N-Grams / 2016

Visual N-Grams
- yhayato1320.hatenablog.com

VirTex / 2020

VirTex
- Image Caption の枠組みで、事前学習
- その後、ダウンストリームタスクで、Fine Turning
- yhayato1320.hatenablog.com

ICMLM / 2020

ICMLM
- Masked Language Model に視覚情報を追加した
- Image-Conditioned Masked Language Modeling
- yhayato1320.hatenablog.com

ConVIRT

Contrastive Learning of Medical Visual Representations from Paired Images and Text
- [2020]
- arxiv.org

CLIP / 2021

CLIP
- テキストと画像の組み合わせから類似度を学習する
- 大規模な事前学習に自己教師あり学習 / 対照学習を利用
- yhayato1320.hatenablog.com

参考

Learned in Translation: Contextualized Word Vectors
- [2017]
- arxiv.org
Learning Transferable Visual Models From Natural Language Supervision
- [2021]
- 2 Approach
  - 2.1 Natural Language Supervision
- arxiv.org