オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Natural Language Supervision #まとめ編

Index

Natural Language Supervision

ラベルのついた教師データではなく、生の自然言語を画像予測のタスクの教師に利用する手法.

従来の画像分類

機械学習・深層学習の画像分類 / 物体認識では、事前に決定された物体のカテゴリリストを予測するように学習する.

このカテゴリのリストは無限ではなく、データセットとして用意できる範囲であり、それは一般性を制限してしまう.

自然言語を教師データに

テキストと画像のペアを用いて学習するというアイディア.

従来の画像に対応するラベルを用意する手法と比べ、アノテーションの手間がないため、データの増強が容易に可能.

利点

従来の「画像に対応するラベルを用意する手法」と比べ、
アノテーションやラベリングの手間が少ないため、データセット作成のコストが少なくなる.

そのため、データセットの量を容易に増加・増強することが可能になる.

アルゴリズム

Visual N-Grams / 2016

VirTex / 2020

  • VirTex
    • Image Caption の枠組みで、事前学習
    • その後、ダウンストリームタスクで、Fine Turning
    • yhayato1320.hatenablog.com

ICMLM / 2020

  • ICMLM

ConVIRT

  • Contrastive Learning of Medical Visual Representations from Paired Images and Text

CLIP / 2021

参考

  • Learned in Translation: Contextualized Word Vectors

  • Learning Transferable Visual Models From Natural Language Supervision

    • [2021]
    • 2 Approach
      • 2.1 Natural Language Supervision
    • arxiv.org