オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】CLIP #実装編 #01

Index

CLIP とは

タスク

画像分類 / 物体認識 の予測処理を確認する.

分類するカテゴリに関しては、変更可能であることも確認する.

データセット

COCO を利用.

実装

実行環境

  • Google Colabratory (2022/03/22)
  • Python 3.7.12
  • PyTorch 1.10.0

ソースコード

OpenAI 公式のソースコードを利用.

github.com

学習済みモデル

こちらも、OpenAI が提供している学習済みモデル (英語) を利用する.

以下のアーキテクチャで学習したモデルの利用が可能.

  • ResNet-50
  • ResNet-101
  • ViT-B/32
  • ViT-B/16
  • ViT-L/14

github.com

実行