Index
- Index
- 画像への応用
- アルゴリズム
- Image Transformer / 2018
- Set Transformer / 2018
- Axial Transformer / 2019
- Vision Transformer / ViT / 2020 ★
- DeIT / 2021 ★
- Swin Transformer / 2021 ★
- MetaFormer / PoolFormer / 2021
- Pyramid Vision Transformer / 2021
- ToMe / 2022
- Sequencer / 2022
- Deformable Attention Transformer / DAT / 2022
- U-ViT / 2022
- DiT / 2022
- Fourier Learner-Transformers / FLT / 2023
- Bcos-ViT / 2023
- Reversible Vision Transformers / 2023
- Vit-22B / 2023
- Energy Transformer / 2023
- Visual Atoms / 2023
- StraIT / 2023
- GHN-3 / 2023
- ElasticViT / 2023
- FastViT / 2023
- SparseViT / 2023
- Mixed Resolution VIT / 2023
- SparseFormer / 2023
- Slide-Transformer / 2023
- AutoTaskFormer / 2023
- 工夫・テクニック
- 他分野への応用
- 参考
画像への応用
Transformer を画像へ応用した手法をまとめる.
Transformer #まとめ編
画像処理 #まとめ編
課題
- 画像 (2 D) 情報を 1 D 情報へ変換
- Self Attention のコスト
- 局所的な特徴量
アルゴリズム
Image Transformer / 2018
- Image Transformer
- [2018]
- arxiv.org
Set Transformer / 2018
- Set Transformer: A Framework for Attention-based Permutation-Invariant Neural Networks
- [2018]
- arxiv.org
Axial Transformer / 2019
- Axial Attention in Multidimensional Transformers
- [2019]
- arxiv.org
Vision Transformer / ViT / 2020 ★
- Vision Transformer
- Transformer Encoder を画像に適用した
-
- yhayato1320.hatenablog.com
Deep ViT / 2021
Re Attention.
DeIT / 2021 ★
- DeIT
- [2021 Facebook]
- arxiv.org
- deepsquare.jp
Swin Transformer / 2021 ★
- Swin Transformer
- Self Attention と画像の相性の悪さについて改善
- [2021]
- yhayato1320.hatenablog.com
MetaFormer / PoolFormer / 2021
MLP-Mixer / 2021
Conv Mixer / 2022
- Patches Are All You Need?
- [2022]
- arxiv.org
Pyramid Vision Transformer / 2021
- Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
- [2021]
- arxiv.org
ToMe / 2022
Sequencer / 2022
Sequencer: Deep LSTM for Image Classification
- [2022]
- arxiv.org
AI(人工知能)の世界最高峰の国際会議 「NeurIPS 2022」で論文採択
Deformable Attention Transformer / DAT / 2022
- Deformable Attention Transformer / DAT
U-ViT / 2022
- All are Worth Words: A ViT Backbone for Diffusion Models
- [2022]
- arxiv.org
- github.com
DiT / 2022
- Scalable Diffusion Models with Transformers
Fourier Learner-Transformers / FLT / 2023
- Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers
- [2023]
- arxiv.org
Bcos-ViT / 2023
Reversible Vision Transformers / 2023
逆変換可能なNICE機構(T(x,y) = (x, y+f(x)))をViTの自己注意機構とMLP部分に適用.
特にトークン数が変わらない場合はネットワーク全体が逆変換可能となり学習時の活性値保存が不要.
メモリ使用量を1/15に抑えつつ、精度は殆ど劣化しない.
特にトークン数が変わらない場合はネットワーク全体が逆変換可能となり学習時の活性値保存が不要.
メモリ使用量を1/15に抑えつつ、精度は殆ど劣化しない.
Vit-22B / 2023
- Scaling Vision Transformers to 22 Billion Parameters
- [2023]
- arxiv.org
- ai.googleblog.com
Energy Transformer / 2023
- Energy Transformer
- [2023]
- arxiv.org
Visual Atoms / 2023
StraIT / 2023
画像生成.
- StraIT: Non-autoregressive Generation with Stratified Image Transformer
- [2023]
- arxiv.org
GHN-3 / 2023
- Can We Scale Transformers to Predict Parameters of Diverse ImageNet Models?
- [2023]
- arxiv.org
ElasticViT / 2023
- ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices
- [2023]
- arxiv.org
FastViT / 2023
SparseViT / 2023
- SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer
- [2023]
- arxiv.org
Mixed Resolution VIT / 2023
- Vision Transformers with Mixed-Resolution Tokenization
- [2023]
- arxiv.org
- github.com
SparseFormer / 2023
- SparseFormer: Sparse Visual Recognition via Limited Latent Tokens
- [2023]
- arxiv.org
- github.com
Slide-Transformer / 2023
AutoTaskFormer / 2023
工夫・テクニック
Dual PatchNorm / 2023
ViT の patch embedding の前後に Layer Normalization (LN) を挿入し,精度の改善.
ViT オリジナルの LN 配置である pre-LN がほぼ最適であるとし,
Transformer Block ではなく,patch embedding 前後に LN を挿入する形を提案.
- Dual PatchNorm
- [2023]
- arxiv.org
Multi Headed Self Attention
- SpectFormer: Frequency and Attention is what you need in a Vision Transformer
- [2023]
- 2 Related Work
- Quadratic Complexity of Attention Nets
ViT
DeIT
Spectral Layers
- SpectFormer: Frequency and Attention is what you need in a Vision Transformer
- [2023]
- 2 Related Work
- Spectral Transformers
FNet / 2021
- FNet: Mixing Tokens with Fourier Transforms
- [2021]
- arxiv.org
GFNet / 2021
- Global Filter Networks for Image Classification
- [2021]
- arxiv.org
AFNO / 2021
- Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers
- [2021]
- arxiv.org
SpectFormer / 2023
他分野への応用
動画への応用
- Transformer #まとめ編
- 動画への応用
- yhayato1320.hatenablog.com
3D
3D Patch / 2021
- 3D Patch
- 医療系 3D データへのセグメンテーション
- yhayato1320.hatenablog.com
参考
書籍
- Vision Transformer 入門
Web サイト
Swin/Vision Transformers — Hacking the Human Eye
- Vision の世界に Transformer を導入
- ViT の理解
- ViT から Swin へ
- towardsdatascience.com
Awesome Vision Transformer Collection
- github.com
- Vision Transformer の手法とその実装のまとめ
ML Papers Explained