オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】CLIP #まとめ編

データサイエンスデータサイエンス-マルチモーダルデータサイエンス-深層学習

Index

Index
CLIP / 2021
応用

CLIP / 2021

テキストと画像のモーダル間の表現空間を調整することで、異なるモーダル間の表現を、相互に利用できるようにした手法.

Contrastive Language-Image Pre-training

アルゴリズム

テキスト情報から画像分類 / 物体認識を学習するフレームワーク.

CLIP #アルゴリズム編
- [2021]
- yhayato1320.hatenablog.com

ラベルのついた教師データではなく、生の自然言語を画像予測のタスクの教師に利用する Natural Language Supervision を導入.

Natural Language Supervision
- yhayato1320.hatenablog.com

Contrastive Language-Image Pre-training

実装について

CLIP #実装編 #01
- Google Colab
- 物体認識 / 画像分類
- yhayato1320.hatenablog.com
CLIP #実装編 #02
- Docker 環境 / Torch Serve で API
- 物体認識 / 画像分類
- yhayato1320.hatenablog.com
CLIP #実装編 #03
- 日本語の学習済みモデル
- テキストと画像の類似度を計算
- yhayato1320.hatenablog.com
CLIP #実装編 #04
- ネットワークを追加して、距離学習
- yhayato1320.hatenablog.com

モデル

laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K
- huggingface.co

応用

Style CLIP / 2021

Style CLIP
- [2021]
- CLIP + Style GAN
- 画像生成
- yhayato1320.hatenablog.com

DALL-E / 2021 -

DALL-E
- CLIP + VAE
- yhayato1320.hatenablog.com

GLIP / 2021

GLIP

[2021 Microsoft]

Object Detection + Phrase Grounding を CLIP のフレームワークで

Grounded Language-Image Pre-training

yhayato1320.hatenablog.com

yhayato1320.hatenablog.com

CLOOB / 2021

CLOOB

[2021]

Contrastive Leave One Out Boost

yhayato1320.hatenablog.com

SLIP / 2021

SLIP: Self-supervision meets Language-Image Pre-training
- [2021]
- arxiv.org

CLIP-Lite / 2021

CLIP-Lite: Information Efficient Visual Representation Learning from Textual Annotations
- [2021]
- arxiv.org

CLIPDraw / 2021

CLIPDraw
- yhayato1320.hatenablog.com

BLIP / 2022

BLIP
- [2022]
- yhayato1320.hatenablog.com

BLIP-2

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- [2023]
- arxiv.org
github.com
- github

X-CLIP / 2022

X-CLIP
- yhayato1320.hatenablog.com

FLIP / 2022

Scaling Language-Image Pre-training via Masking
- [2022]
- arxiv.org
- github.com

FedCLIP / 2023

連合学習 / Federated Learning を導入.

連合学習 / Federated Learning
- yhayato1320.hatenablog.com
FedCLIP: Fast Generalization and Personalization for CLIP in Federated Learning
- [2023]
- arxiv.org

HiCLIP / 2023

HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention
- [2023]
- arxiv.org

EVA-CLIP / 2023

EVA-CLIP: Improved Training Techniques for CLIP at Scale
- [2023]
- arxiv.org
- github.com

SoftCLIP / 2023

SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger
- [2023]
- arxiv.org

RECLIP / 2023

RECLIP: Resource-efficient CLIP by Training with Small Images
- [2023]
- arxiv.org

ShapeClipper / 2023

3D.

ShapeClipper: Scalable 3D Shape Learning from Single-View Images via Geometric and CLIP-based Consistency
- [2023]
- arxiv.org
- zixuanh.com

Visual Classification via Description from Large Language Models

Visual Classification via Description from Large Language Models
- arxiv.org
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)
- 【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023) from Deep Learning JP
  www.slideshare.net