Index
Natural Language Supervision
ラベルのついた教師データではなく、生の自然言語を画像予測のタスクの教師に利用する手法.
- マルチモーダル
従来の画像分類
機械学習・深層学習の画像分類 / 物体認識では、事前に決定された物体のカテゴリリストを予測するように学習する.
このカテゴリのリストは無限ではなく、データセットとして用意できる範囲であり、それは一般性を制限してしまう.
自然言語を教師データに
テキストと画像のペアを用いて学習するというアイディア.
従来の画像に対応するラベルを用意する手法と比べ、アノテーションの手間がないため、データの増強が容易に可能.
利点
従来の「画像に対応するラベルを用意する手法」と比べ、
アノテーションやラベリングの手間が少ないため、データセット作成のコストが少なくなる.
そのため、データセットの量を容易に増加・増強することが可能になる.
アルゴリズム
Visual N-Grams / 2016
- Visual N-Grams
VirTex / 2020
- VirTex
- Image Caption の枠組みで、事前学習
- その後、ダウンストリームタスクで、Fine Turning
- yhayato1320.hatenablog.com
ICMLM / 2020
- ICMLM
- Masked Language Model に視覚情報を追加した
- Image-Conditioned Masked Language Modeling
- yhayato1320.hatenablog.com
ConVIRT
- Contrastive Learning of Medical Visual Representations from Paired Images and Text
- [2020]
- arxiv.org
CLIP / 2021
- CLIP
- テキストと画像の組み合わせから類似度を学習する
- 大規模な事前学習に自己教師あり学習 / 対照学習を利用
- yhayato1320.hatenablog.com