Index

Region of Interest Pooling / RoI

Fast R-CNN で利用される.

SPP と同様に、全結合層への入力を決まったサイズにすることが目的.

SPP を簡略した、1 層の Feature Pyramid を想定.

Fast R-CNN では、画像から CNN により特徴マップが生成され、
その後、画像中に提案された物体領域候補を、特徴マップに対応させるといった流れがある.

上の図では、赤の矩形が提案された物体領域候補としている.

では、画像中にて提案されている物体領域候補を、どのようにして特徴マップに結びつけるのか.

ここで、入力画像が、 $512\ \times\ 512$ とし、変換後の特徴マップの大きさを $16\ \times\ 16$ とする.

そして、画像中の物体領域候補のサイズを $200\ \times\ 145$ とする.

全体のスケールが $\displaystyle \frac{16}{512}\ =\ \displaystyle \frac{1}{32}$ になっているから
特徴マップでの物体領域候補のサイズも以下のように、対応させる.

サイズの数値を量子化 (実数 -> 整数) する.

そして、座標の量子化を行う.

この 2 つの量子化の際に、情報がある程度失われる.

Fast R-CNN では、物体領域候補の量子化が完了した後、全結合への入力サイズを統一するため、
RoI Pooling を行う.

量子化が完了した物体領域候補のサイズを $4\ \times\ 6$ とし、
Pooling 後の結果を $3\ \times\ 3$ の大きさに変更したいとする.

ここで、幅は 6 / 3 = 2 で割り切れるが、
高さは 4 / 3 = 1 で 1 あまるが、それを無視して Max Pooling を行う.

ここでも、情報の損失がある.