Index
CLIP / 2021
テキストと画像のモーダル間の表現空間を調整することで、
異なるモーダル間の表現を、相互に利用できるようにした手法.
Contrastive Language-Image Pre-training
アルゴリズムについて
テキスト情報から画像分類 / 物体認識を学習するフレームワーク.
- CLIP #アルゴリズム編
- [2021]
- yhayato1320.hatenablog.com
ラベルのついた教師データではなく、生の自然言語を画像予測のタスクの教師に利用する手法を導入する.
- Natural Language Supervision
Contrastive Language-Image Pre-training
実装について
CLIP #実装編 #01
- Google Colab
- 物体認識 / 画像分類
- yhayato1320.hatenablog.com
CLIP #実装編 #02
- Docker 環境 / Torch Serve で API
- 物体認識 / 画像分類
- yhayato1320.hatenablog.com
CLIP #実装編 #03
- 日本語の学習済みモデル
- テキストと画像の類似度を計算
- yhayato1320.hatenablog.com
CLIP #実装編 #04
- ネットワークを追加して、距離学習
- yhayato1320.hatenablog.com
応用
Style CLIP / 2021
- Style CLIP
- [2021]
- CLIP + Style GAN
- 画像生成
- yhayato1320.hatenablog.com
DALL-E / 2021 -
- DALL-E
- CLIP + VAE
- yhayato1320.hatenablog.com
GLIP / 2021
- GLIP
- [2021 Microsoft]
- Object Detection + Phrase Grounding を CLIP のフレームワークで
-
Grounded Language-Image Pre-training
- yhayato1320.hatenablog.com
- yhayato1320.hatenablog.com
CLOOB / 2021
- CLOOB
- [2021]
-
Contrastive Leave One Out Boost
- yhayato1320.hatenablog.com
SLIP / 2021
- SLIP: Self-supervision meets Language-Image Pre-training
- [2021]
- arxiv.org
CLIP-Lite / 2021
- CLIP-Lite: Information Efficient Visual Representation Learning from Textual Annotations
- [2021]
- arxiv.org
BLIP / 2022
- BLIP
- [2022]
- yhayato1320.hatenablog.com