オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】R-CNN

データサイエンスデータサイエンス-深層学習

yhayato1320.hatenablog.com

Index

Index
R-CNN
- 深層学習導入前
- CNN の導入
処理のパイプライン
- バウンディングボックスの位置の回帰
参考
- 書籍
- Web サイト

R-CNN

CNN を利用した物体検出として、R-CNN / Regions with CNN featuresが提案されてた.

深層学習導入前

深層学習が用いられる以前は、物体検出のパイプラインでは、
計算コストの低い HOG 特徴などが、一般的に用いられていた.

yhayato1320.hatenablog.com

CNN の導入

R-CNN は、この特徴を CNN から得られる特徴で、置き換えた物体検出システムとみなせる.

yhayato1320.hatenablog.com

CNN から得られる特徴を、CNN 特徴 と呼ぶ.

R-CNNで利用する CNN は、大規模な物体認識用のデータセットを用いてあらかじめ学習する.

大規模なデータセットを用いて学習された CNN は、汎用的な特徴抽出器とみなせる.

処理のパイプライン

物体領域候補を提案.
CNN 特徴の取得
分類器での予測
後処理

R-CNN では、はじめに選択的探索法を利用して、物体領域候補を提案する.

yhayato1320.hatenablog.com

得られた物体領域候補内の画像を、あらかじめ学習しておいた CNN に入力し、この領域の CNN 特徴を得る.

CNN 特徴を分類器 (線形 SVM 等) に入力し、物体領域候補の物体クラスを予測する.

後処理として、スコアリングされた物体領域候補から、非最大値の抑制をおこなって、
不要なバウンディングボックスを排除する.

さらに、バウンディングボックスの推定速度を上げるために、物体領域候補の CNN 特徴から、
バウンディングボックスのパラメータ (中心位置、幅、高さ) への回帰を行う.

バウンディングボックスの位置の回帰

バウンディングボックスの回帰について、述べる.

yhayato1320.hatenablog.com

提案したバウンディングボックスを $r\ =\ (r_x,\ r_y,\ r_w,\ r_h)^{T}$ と、
これに対応する真のバウンディングボックス (Ground Truth) を $g\ =\ (g_x,\ g_y,\ g_w,\ g_h)^{T}$ とし、
$N$ 個の訓練データ集合 $D\ =\ \{ (r_n,\ g_n) \}_{n=1}^{N}$ が与えられているとする.

$r_x,\ r_y,\ r_w,\ r_h$ はそれぞれ、予測した BB の $x$ 座標、 $y$ 座標、幅、高さを示している.
$g_x,\ g_y,\ g_w,\ g_h$ も同様.

目標は、 $r$ から $g$ を予測する回帰モデルを構築すること.

(人であれば、縦長のBB、バスであれば横長のBB になる場合が多いことから、)
BB の形状は、対象物体のクラスに依存していると考えられる.

そこで、予測された BB 内の CNN 特徴 $f(r)$ から $g$ を求める回帰モデルを
クラスごとに学習する.

回帰分析でいうところの、 $f(r)$ が説明変数で、 $g$ が目的変数.
また、説明変数が 2 つ以上なので、重回帰分析に当てはまる.

この回帰モデルのパラメータ $W$ は、クラスごとに準備した訓練データ集合をもとに、
下の式の最適化問題を解くことで得られる.

$\DeclareMathOperator*{\argmin}{arg\,min} W\ =\ \displaystyle \argmin_{W}\ \displaystyle \sum_{n=1}^{N} (t_{n}\ -\ W^{T} f(r_{n})\ +\ \lambda\ |W|_{F}^{2})$

ここで、 $t\ =\ (t_x,\ t_y,\ t_w,\ t_h)^{T}$ は以下のように定義する.

$\begin{align} t_x&=\displaystyle \frac{g_x\ -\ r_x}{r_w} \\ \\ t_y&=\displaystyle \frac{g_y\ -\ r_y}{r_h} \\ \\ t_w&=\log \left( \displaystyle \frac{g_w}{r_w} \right) \\ \\ t_h&=\log \left( \displaystyle \frac{g_h}{r_h} \right) \end{align}$

参考

Rich feature hierarchies for accurate object detection and semantic segmentation
- [2013]
- arxiv.org

書籍

画像認識
- 7 物体検出
  - 7.6 畳み込みニューラルネットワークを利用した物体検出
    - 7.6.1 R-CNN
- 画像認識 (機械学習プロフェッショナルシリーズ)
  - 作者:原田達也
  - 講談社
  Amazon

Web サイト

R-CNN (Regions with CNN features)：ディープラーニングによる一般物体検出手法
- blog.negativemind.com