オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】CLIP #まとめ編

Index

CLIP / 2021

テキストと画像のモーダル間の表現空間を調整することで、 異なるモーダル間の表現を、相互に利用できるようにした手法.

Contrastive Language-Image Pre-training

アルゴリズム

テキスト情報から画像分類 / 物体認識を学習するフレームワーク.



ラベルのついた教師データではなく、生の自然言語を画像予測のタスクの教師に利用する Natural Language Supervision を導入.

Contrastive Language-Image Pre-training

実装について

モデル

応用

Style CLIP / 2021

DALL-E / 2021 -

GLIP / 2021

CLOOB / 2021

SLIP / 2021

  • SLIP: Self-supervision meets Language-Image Pre-training

CLIP-Lite / 2021

  • CLIP-Lite: Information Efficient Visual Representation Learning from Textual Annotations

CLIPDraw / 2021



BLIP / 2022

BLIP-2

  • BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

  • github.com

X-CLIP / 2022

FLIP / 2022

FedCLIP / 2023

連合学習 / Federated Learning を導入.

HiCLIP / 2023

  • HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention

EVA-CLIP / 2023

SoftCLIP / 2023

  • SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger

RECLIP / 2023

  • RECLIP: Resource-efficient CLIP by Training with Small Images

ShapeClipper / 2023

3D.

  • ShapeClipper: Scalable 3D Shape Learning from Single-View Images via Geometric and CLIP-based Consistency

Visual Classification via Description from Large Language Models