この記事の読者
キーワード・知ってると理解がしやすい
- EfficientNet
- NAS (Neural Architecture Search)
- Fused-MBConv
Index
EfficientNet V2
EfficientNet の問題点を改善した手法.
EfficientNet には、以下のような問題点があった.
大きいサイズの画像の学習について
入力画像の解像度が大きい場合、それに応じた大きいアーキテクチャが利用されるため、 メモリの使用量が大きくなる. そのため、メモリに乗るようなバッチサイズになるように下げる必要があり、 学習完了までの時間がかかる. (学習速度が遅くなる.)
改善としては、小さいサイズの画像から学習しはじめ、徐々に大きくしていくことで 効率良く学習を進める.
アーキテクチャ上流の Depthwise Convolutions について
EfficientNet (の Bottleneck Block内?) に使用されているアーキテクチャにて、 Depthwise Convolutions が利用されている.
Depthwise Convolutions が内部で利用されている.
アーキテクチャ上流のこの部分(MB Conv)を、さらに効率のよい Fused-MB Conv に置きかえる.
Fused-MB Conv をアーキテクチャの上流に利用することで、 計算量(FLOPS) を低下させる.
どのように、Fusion-MB Conv に置き換えるか、NAB の探索要素に含み.
(幅、深さ、解像度 の)均等なスケーリングについて
EfficientNet でのアーキテクチャのスケーリング方法では、 以下のように、幅、深さ、解像度の三つが均等に段階的に大きくなるように設計されていた.
EfficientNetV2 では、不均一なスケーリング戦略を利用してスケーリングする.
工夫手法
Progressive Learning
学習初期は、小さい画像に小さな正則化(ペナルティ)を加え、 画像サイズが大きくなるたびに、正則化(ペナルティ)を大きくする.
入力画像のサイズに応じて、正則化(ペナルティ)を自動的に調整する学習.
学習の高速化を図る.
Fused-MBConv
アーキテクチャについて
NAS でのアーキテクチャ探索
EfficientNet 同様、「精度」、「パラメータ効率」、「学習速度」を重要視して
アーキテクチャを決定する.
EfficientNet の条件をベースに以下加える.
パラメータ | 探索空間 |
---|---|
畳み込み演算手法 | {MBConv, Fused-MBConv} |
層の数 | - |
カーネルサイズ | {3x3, 5x5} |
拡張率 | {1, 4, 6} |
拡張率とは、MBConvの最初の畳み込み層でチャネル数を何倍にするかの係数
ベースアーキテクチャ
アーキテクチャのスケーリング
参考
- EfficientNetV2: Smaller Models and Faster Training
- [2021] 発表論文
- 1 Introduction
- 3 EfficientNetV2 Architecture Design
- 3.2 Understanding Training Efficiency
- 3.3 Training-Aware NAS and Scaling
- 4 Progressive Learning
- arxiv.org
Web サイト
- 2021年最強になるか!?最新の画像認識モデルEfficientNetV2を解説