オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【画像処理】物体検出 / Object Detection #まとめ編 #00

Index

物体検出 / Object Detection とは

画像データを入力として、
特定の物体の種類 (クラス分類)位置 (Bounding Box) を推定するタスク.

「位置の推定」の意味合いとしては、人や車などの物体を取り囲む四角い領域を画像中から発見することである.



この物体を取り囲む領域を Bounding Box もしくは、Windowという.

Real Time Object Detection

物体検出 / Object Detection の処理をリアルタイムに、高速に処理を行うタスク.

アルゴリズム

物体検出の (画像ベースの) 多くの手法では、

  1. 物体を囲む領域の候補群を推定.
  2. 得られた物体の領域候補内の画像を「物体認識」に入力して、認識対象物体らしさを計算する.
  3. 同一物体に複数の BB が検出されないように後処理を行う.

のような手順で処理を行う.



深層学習ベースの手法では、End-to-End で、画像の入力から、物体の検出まで、
一つのニューラルネットワークで処理を行う場合が多い.

画像処理 (+ 機械学習)

主にルールベース (と機械学習) を用いる手法.

一般的に、深層学習のみの手法より、処理速度が早い場合が多い.

物体領域候補の提案

画像中から物体領域を提案するモジュールは、物体検出の精度と速度を決める重要な部分である.

提案された物体領域の提案に失敗してしまうと、物体検出も失敗してしまうからである.

  • 物体領域候補の提案

線形分類器を用いた物体検出

提案された領域それぞれを物体認識へ入力して、認識対象の物体らしさのスコアを計算するために、
提案された領域の数だけ物体認識の計算を行う必要がある.

1 枚の画像から得られる領域の数は、膨大となる場合があるので、
物体認識の計算コストはできる限り低いことが望ましい.

物体認識は、特徴抽出と分類器の組み合わせで実現できるが、
特徴抽出の方法として HOG 特徴、分類器として線形分類器を利用する場合が多い.

この組み合わせは、低い計算コストで、高い分類精度が出ることが知られている.



集団学習 / Ensemble Learning を用いた物体検出

物体スコアの計算に、集団学習 / Ensemble Learning を利用することも考えられる.

アダブーストやランダムフォレストのような、Ensemble Learning の手法を利用すると
線形分類器に比べると、低コストながら高い分類精度を出すことができる.

アダブーストを活用した物体検出の方法として、有名な Viola-Jones の手法を例に挙げる.

Viola-Jones の手法の主なアイディアとして、
積分画像を利用した高速な特徴抽出」と「アダブーストによる分類」の 2 つで構成されている.

深層学習

一般的に、画像処理ベースよりも、処理時間がかかる場合が多い.

しかし、精度の面や柔軟性・頑健性においては、画像処理ベースよりも優る場合が多い.

後処理

非最大抑制 / Non-Maximal Suppression / NMS

精度指標

Intersection over Union / IoU

BB / 位置の予測に関する精度.

平均適合率 / Average Precision / AP

データセット

実装編

参考

Web サイト

  • 物体検出についての歴史まとめ(2)