Index
深層学習を用いた画像処理
深層学習を用いた画像処理のアルゴリズムをまとめる.
深層学習 #まとめ編
画像処理 #まとめ編
Network Architecture
MLP
RepMLP / 2021
画像認識において従来の畳み込み層の代わりに全結合 (FC) 層を活用する新技術、RepMLP.
一般的にFC層は画像認識に必要な局所的な情報の抽出が苦手ですが、本手法は学習時に並列させた畳み込み層を推論時に FC 層へ統合する構造的再パラメータ化により、この欠点を克服.
これにより、FC層が持つ広域的な依存関係の把握や位置情報の認識能力を活かしつつ、高速かつ効率的な処理が可能.
実験では、RepMLP を既存の ResNet に組み込むことで、顔認識やセマンティックセグメンテーションといった多様なタスクで精度と推論速度の両面を向上させている.
スループットと精度の向上を重視する実用的なシーンにおいて、MLP型ネットワークが有力な選択肢となることを示した.
- RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition
- [2021]
- arxiv.org
https://t.co/UxsQYpuEbO
— akira (@AkiraTOSEI) May 20, 2021
画像認識においてMLPを使う研究。位置バイアスの組み込みとパラメータ削減するため、画像をパッチに分割してMLPを使ったResidual Blockを構築している。学習時は複数のConvを使うが、推論時はConvのパラメーターをMLPに等価に変換することで純粋なMLPのネットワークとなる。 pic.twitter.com/iipJTmYDnJ
CNN
- CNN #まとめ編
Attention
- Attention #まとめ編
Transformer
- Transformer #まとめ編
CXV / Convolutional Xformers for Vision / 2022
画像処理に特化した新しいハイブリッドニューラルネットワークアーキテクチャ. このモデルは、従来の Transformer の計算コストとデータ要件を軽減するために、畳み込み層と線形 Attention 機構を組み合わせることで、少ないデータとGPUリソースで高い画像分類精度を実現. さらに、訓練プロセスの後半でオプティマイザーを切り替えることで精度を向上させる、新しい訓練戦略「DualOpT」も提案されている.
- Convolutional Xformers for Vision
- [2022]
- arxiv.org
https://t.co/MGjAaL97Ol
— akira (@AkiraTOSEI) March 2, 2022
Tranformerにおいて、Attentionを線形注意に変換し、Convを組み合わせたXCVを提案。低データ量、低GPU資源でも高い性能を発揮することができる。 pic.twitter.com/txAegUy8eL
工夫・テクニック
Data Augmentation
- Data Augmentation #まとめ編
- 画像における Data Augmentation
- yhayato1320.hatenablog.com
Mixture of Experts / MoE
- Mixture of Experts / MoE
Diffusion Model
- Diffusion Model
Formula-driven Supervised Learning / FDSL / 2022-
- Formula-driven Supervised Learning / FDSL
LZU / 2023
- Learning to Zoom and Unzoom
- [2023]
- arxiv.org
- tchittesh.github.io
参考
- CNN+ViTモデルの傾向【サーベイ】