オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】EfficientNet V2 #アルゴリズム編

この記事の読者

深層学習・ディープラーニングの手法の1つである「EfficientNet V2」について知りたい.


キーワード・知ってると理解がしやすい

  • EfficientNet
  • NAS (Neural Architecture Search)
  • Fused-MBConv

yhayato1320.hatenablog.com

yhayato1320.hatenablog.com

Index

EfficientNet V2

EfficientNet の問題点を改善した手法.

EfficientNet 同様に

における、提案手法.


EfficientNet には、以下のような問題点があった.


  1. 画像サイズが大きいと学習が遅い
  2. アーキテクチャの上流部分の Depthwise Convolution の学習が遅い
  3. アーキテクチャを均等にスケールアップするのは最適ではない

大きいサイズの画像の学習について

入力画像の解像度が大きい場合、それに応じた大きいアーキテクチャが利用されるため、 メモリの使用量が大きくなる. そのため、メモリに乗るようなバッチサイズになるように下げる必要があり、 学習完了までの時間がかかる. (学習速度が遅くなる.)



改善としては、小さいサイズの画像から学習しはじめ、徐々に大きくしていくことで 効率良く学習を進める.


(「Progressive Learning」にて後述)

アーキテクチャ上流の Depthwise Convolutions について

EfficientNet (の Bottleneck Block内?) に使用されているアーキテクチャにて、 Depthwise Convolutions が利用されている.


MobileNet V1 / V2 に紹介された手法. (MB Conv と呼称されている.)
Depthwise Convolutions が内部で利用されている.



アーキテクチャ上流のこの部分(MB Conv)を、さらに効率のよい Fused-MB Conv に置きかえる.

(「Fused-MB Conv」にて後述)



Fused-MB Conv をアーキテクチャの上流に利用することで、 計算量(FLOPS) を低下させる.


どのように、Fusion-MB Conv に置き換えるか、NAB の探索要素に含み.

(「NAS でのアーキテクチャ探索」にて後述)

(幅、深さ、解像度 の)均等なスケーリングについて

EfficientNet でのアーキテクチャのスケーリング方法では、 以下のように、幅、深さ、解像度の三つが均等に段階的に大きくなるように設計されていた.

 \alpha^{N},\ \beta^{N},\ \gamma^{N}


EfficientNetV2 では、不均一なスケーリング戦略を利用してスケーリングする.

工夫手法

Progressive Learning

学習初期は、小さい画像に小さな正則化(ペナルティ)を加え、 画像サイズが大きくなるたびに、正則化(ペナルティ)を大きくする.

入力画像のサイズに応じて、正則化(ペナルティ)を自動的に調整する学習.

学習の高速化を図る.


詳細準備中

Fused-MBConv

準備中

アーキテクチャについて

NAS でのアーキテクチャ探索

EfficientNet 同様、「精度」、「パラメータ効率」、「学習速度」を重要視して アーキテクチャを決定する.

EfficientNet の条件をベースに以下加える.

パラメータ 探索空間
畳み込み演算手法 {MBConv, Fused-MBConv}
層の数 -
カーネルサイズ {3x3, 5x5}
拡張率 {1, 4, 6}


拡張率とは、MBConvの最初の畳み込み層でチャネル数を何倍にするかの係数


(EfficientNet で決定したパラメータはそのまま使う?)

ベースアーキテクチャ

NAS で決定したアーキテクチャ.


アーキテクチャのスケーリング

準備中

参考

  • EfficientNetV2: Smaller Models and Faster Training
    • [2021] 発表論文
    • 1 Introduction
    • 3 EfficientNetV2 Architecture Design
      • 3.2 Understanding Training Efficiency
      • 3.3 Training-Aware NAS and Scaling
    • 4 Progressive Learning
    • arxiv.org

Web サイト

  • 2021年最強になるか!?最新の画像認識モデルEfficientNetV2を解説