オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】YOLO v4 #アルゴリズム編 #02

yhayato1320.hatenablog.com

Index

YOLO v4 とは

yhayato1320.hatenablog.com

YOLO v4 の論文では、Bag of Specials についてまとめている.
ここでは、その部分について述べる.

Bag of Specials

僅かな推論コストを許容することで、精度を上げようする考え.

  • Convolution の改善
  • Attention の導入
  • 特徴量の扱い方の改善
  • 活性化関数の改善
  • 後処理

Convolution の改善

  • Spatial Pyramid Pooling / SPP
  • Atrous Spatial Pyramid Pooling / ASPP
  • Receptive Field Block / RFB

Spatial Pyramid Pooling / SPP

SPP は、Spatial Pyramid Matching (SPM)に由来している手法.

SPM は、特徴量マップをいくつかの  d \times d の等しいブロックに分割し、
その後、Spatial Pyramid を形成し、特徴量を抽出する.

SPP は、SPM に CNN を結合した.

yhayato1320.hatenablog.com

Atrous Spatial Pyramid Pooling / ASPP

SPP の改善手法.

Receptive Field Block / RFB

ASPP の改善手法.

Attention の導入

  • Squeeze-and-Excitation / SE : チャンネルにおける Attention
  • Spatial Attention Module / SAM : ポイント(点)における Attention

特徴量の扱い方の改善

低レベルの特徴を高レベルの特徴量へ

  • Skip Connection
  • Hyper Column

マルチスケール機能

この手法をベースにいくかの応用手法が提案されている.

  • Scale-wise Feature Aggregation Module / SFAM
    • M2Det に利用
  • Adaptively Spatial Feature Fusion / ASFF
  • Bi-directional Feature Pyramid Network / BiFPN
    • EfficientDet

活性化関数の改善

DeepLearning の研究では、活性化関数に焦点を当てる研究もある.

yhayato1320.hatenablog.com

ReLU はよく利用される活性化関数である.
これを元にいくつかの改善手法がある.

  • LReLU
  • PReLU
  • ReLU6
  • Scaled Exponential Linear Unit / SELU
  • Swish
  • hard-Swish
  • Mish

後処理

Non-Maximum Suppression / NMS は物体検出の後処理で一般的に利用される手法のひとつ.

同じ物体の位置を予測している BB から、最も良く予測していると思われる BB を選ぶ処理.

NMS をベースに改善手法が提案されている.

  • Soft NMS
  • DIoU NMS

参考

  • YOLOv4: Optimal Speed and Accuracy of Object Detection
    • [2020]
    • 2 Related work
      • 2.3 Bag of Specials
    • arxiv.org

Convolution の改善

  • Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    • [2014] Spatial Pyramid Pooling / SPP についての論文
    • arxiv.org
  • DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

    • [2016] Atrous Spatial Pyramid Pooling / ASPP についての論文
    • arxiv.org
  • Receptive Field Block Net for Accurate and Fast Object Detection

    • [2017] Receptive Field Block / RFB についての論文
    • arxiv.org

マルチスケール機能

  • M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

    • [2018] Scale-wise Feature Aggregation Module / SFAM についての論文
    • arxiv.org
  • Learning Spatial Fusion for Single-Shot Object Detection

    • [2019] Adaptively Spatial Feature Fusion / ASFF についての論文
    • arxiv.org
  • EfficientDet: Scalable and Efficient Object Detection

    • [2019] Bi-directional Feature Pyramid Network / BiFPN についての論文
    • arxiv.org

後処理

  • Rich feature hierarchies for accurate object detection and semantic segmentation

    • [2013] Non-Maximum Suppression / NMS についての論文
    • arxiv.org
  • 物体検出で重なったバウンディングボックスを除去・集約するアルゴリズムのまとめ (NMS, Soft-NMS, NMW, WBF)