オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Swin Transformer #実装編

yhayato1320.hatenablog.com

Index

Swin Transformer とは

Transformer を画像分野に適用した手法.

yhayato1320.hatenablog.com

前置き

タスク

画像から特定の物体を検出する物体検出で、推論処理を確認する.

yhayato1320.hatenablog.com

データセット

COCO データセットを利用.

物体検出のアルゴリズム

物体検出のBackbone に Swin Transformer を利用するが、
全体にフレームワークとしては、Mask R-CNNを利用.

yhayato1320.hatenablog.com

実装

環境構築とライブラリ

  • Google Colaboratory (2022/02/27)

    • cuda 11.1
  • Python (3.7.12)

    • PyTorch (1.10.0+cu111)
    • mmcv-full (1.4.0) : mmdet のバージョンに合わせた
    • mmdet (2.11.0)

データセットを取得

コード(ライブラリ)と学習済みモデル

利用するコードは、mmdetection をフォークしている Swin-Transformer-Object-Detection を利用.

github.com

学習済みモデルは、mmdetection を利用.

github.com

推論の確認

推論結果









参考