Index
R-CNN
CNN を利用した物体検出として、R-CNN / Regions with CNN featuresが提案されてた.
深層学習導入前
深層学習が用いられる以前は、物体検出のパイプラインでは、
計算コストの低い HOG 特徴などが、一般的に用いられていた.
CNN の導入
R-CNN は、この特徴を CNN から得られる特徴で、置き換えた物体検出システムとみなせる.
CNN から得られる特徴を、CNN 特徴 と呼ぶ.
R-CNNで利用する CNN は、大規模な物体認識用のデータセットを用いてあらかじめ学習する.
大規模なデータセットを用いて学習された CNN は、汎用的な特徴抽出器とみなせる.
処理のパイプライン
- 物体領域候補を提案.
- CNN 特徴の取得
- 分類器での予測
- 後処理
R-CNN では、はじめに選択的探索法を利用して、物体領域候補を提案する.
得られた物体領域候補内の画像を、あらかじめ学習しておいた CNN に入力し、この領域の CNN 特徴を得る.
CNN 特徴を分類器 (線形 SVM 等) に入力し、物体領域候補の物体クラスを予測する.
後処理として、スコアリングされた物体領域候補から、非最大値の抑制をおこなって、
不要なバウンディングボックスを排除する.
さらに、バウンディングボックスの推定速度を上げるために、物体領域候補の CNN 特徴から、
バウンディングボックスのパラメータ (中心位置、幅、高さ) への回帰を行う.
バウンディングボックスの位置の回帰
バウンディングボックスの回帰について、述べる.
提案したバウンディングボックスを と、
これに対応する真のバウンディングボックス (Ground Truth) を とし、
個の訓練データ集合 が与えられているとする.
も同様.
目標は、 から を予測する回帰モデルを構築すること.
(人であれば、縦長のBB、バスであれば横長のBB になる場合が多いことから、)
BB の形状は、対象物体のクラスに依存していると考えられる.
そこで、予測された BB 内の CNN 特徴 から を求める回帰モデルを
クラスごとに学習する.
また、説明変数が 2 つ以上なので、重回帰分析に当てはまる.
この回帰モデルのパラメータ は、クラスごとに準備した訓練データ集合をもとに、
下の式の最適化問題を解くことで得られる.
参考
- Rich feature hierarchies for accurate object detection and semantic segmentation
- [2013]
- arxiv.org
書籍
- 画像認識
- 7 物体検出
- 7.6 畳み込みニューラルネットワークを利用した物体検出
- 7.6.1 R-CNN
- 7.6 畳み込みニューラルネットワークを利用した物体検出
- 7 物体検出
Web サイト
- R-CNN (Regions with CNN features):ディープラーニングによる一般物体検出手法