オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】YOLO v4 #アルゴリズム編 #01

Index

YOLO v4 とは

YOLO v4 の論文では、Bag of Freebies についてまとめている.

ここでは、その部分について述べる.

Bag of Freebies

物体検出はリアルタイムではなく、オフラインで学習できる.

この利点を利用して、推論のコスト(処理時間)を増やすことなく、トレーニング方法を改善する.

レーニング戦略・トレーニングコストを増やすだけで、 推論時の精度をあげる戦略をBag of Freebiesと呼ぶ.

物体検出の精度を向上させようと考えると、ネットワークアーキテクチャを 高解像で・深く・複雑にする方法が考えられる.

しかし、その方法では、推論時のコストが大きくなってしまう.

Bag of Freebies では、トレーニング戦略を改良することで、推論時の精度を上げるという考え.

手法

  • Data Augmentation
  • Drop 系の正則化手法
  • 画像合成・画風変換を利用

Data Augmentation

Data Augmentation の目的は、入力データの種類の幅を広げること.

  • Photometric Distortions (色彩の歪み)
  • Geometric Distortions (図形的な歪み)
    • ランダムスケール
    • トリミング
    • 反転
    • 回転



その他に、object occlusion (物体の情報を遮るノイズ)がある.

  • ランダム消去
  • カットアウト

Drop 系の正則化手法

  • Dropout
  • DropConnect
  • DropBlock

画像合成・画風変換を利用

複数の画像を合成して、新たな画像を生成する手法もある.

  • MixUp
  • CutMix

また、GAN を利用したスタイル変換も利用する.

クラス間のデータ数の不均衡

クラス間のデータ数の不均衡があることに対する改善方法.

One Hot 表現

異なるラベルの関係を One Hot で表現できない課題.

対応案としては、Label Smoothing がある.

BB の目的関数

従来の方法では、中心点の座標からの予測を利用して、 平均二乗誤差 (MSE) を算出している.

x_center, y_center, w, h
(x_top_left, y_top_left, x_bottom_right, y_bottom_right)



アンカーベースの場合なら、

x_center_offset, y_center_offset, w_offset, h_offset

IoU Loss

予測されたBB と GT の領域の重なりを考慮した誤差関数.

  • GIoU Loss
  • DIoU Loss
  • CIoU Loss

参考

  • YOLOv4: Optimal Speed and Accuracy of Object Detection
    • [2020]
    • 2 Related work
      • 2.2 Bag of freebies
    • arxiv.org