- YOLO #まとめ編
Index
YOLO v4 とは
- YOLO v4
YOLO v4 の論文では、Bag of Freebies についてまとめている.
ここでは、その部分について述べる.
Bag of Freebies
物体検出はリアルタイムではなく、オフラインで学習できる.
この利点を利用して、推論のコスト(処理時間)を増やすことなく、トレーニング方法を改善する.
トレーニング戦略・トレーニングコストを増やすだけで、
推論時の精度をあげる戦略をBag of Freebiesと呼ぶ.
物体検出の精度を向上させようと考えると、ネットワークアーキテクチャを
高解像で・深く・複雑にする方法が考えられる.
しかし、その方法では、推論時のコストが大きくなってしまう.
Bag of Freebies では、トレーニング戦略を改良することで、推論時の精度を上げるという考え.
しかし、その方法では、推論時のコストが大きくなってしまう.
Bag of Freebies では、トレーニング戦略を改良することで、推論時の精度を上げるという考え.
手法
Data Augmentation
Data Augmentation の目的は、入力データの種類の幅を広げること.
- Photometric Distortions (色彩の歪み)
- 明るさ
- コントラスト
- 色相
- 彩度
- ノイズ
- Geometric Distortions (図形的な歪み)
- ランダムスケール
- トリミング
- 反転
- 回転
その他に、object occlusion (物体の情報を遮るノイズ)がある.
- ランダム消去
- カットアウト
Drop 系の正則化手法
- Dropout
- DropConnect
- DropBlock
画像合成・画風変換を利用
複数の画像を合成して、新たな画像を生成する手法もある.
- MixUp
- CutMix
また、GAN を利用したスタイル変換も利用する.
クラス間のデータ数の不均衡
クラス間のデータ数の不均衡があることに対する改善方法.
One Hot 表現
異なるラベルの関係を One Hot で表現できない課題.
対応案としては、Label Smoothing がある.
BB の目的関数
従来の方法では、中心点の座標からの予測を利用して、
平均二乗誤差 (MSE) を算出している.
x_center, y_center, w, h
(x_top_left, y_top_left, x_bottom_right, y_bottom_right)
(x_top_left, y_top_left, x_bottom_right, y_bottom_right)
アンカーベースの場合なら、
x_center_offset, y_center_offset, w_offset, h_offset
IoU Loss
予測されたBB と GT の領域の重なりを考慮した誤差関数.
- GIoU Loss
- DIoU Loss
- CIoU Loss
参考
- YOLOv4: Optimal Speed and Accuracy of Object Detection
- [2020]
- 2 Related work
- 2.2 Bag of freebies
- arxiv.org