Index
Region of Interest Pooling / RoI
Fast R-CNN で利用される.
SPP と同様に、全結合層への入力を決まったサイズにすることが目的.
SPP を簡略した、1 層の Feature Pyramid を想定.
Fast R-CNN での RoI Pooling
Fast R-CNN では、画像から CNN により特徴マップが生成され、
その後、画像中に提案された物体領域候補を、特徴マップに対応させるといった流れがある.
上の図では、赤の矩形が提案された物体領域候補としている.
特徴マップ上の座標の量子化
では、画像中にて提案されている物体領域候補を、どのようにして特徴マップに結びつけるのか.
ここで、入力画像が、 とし、変換後の特徴マップの大きさを とする.
そして、画像中の物体領域候補のサイズを とする.
全体のスケールが になっているから
特徴マップでの物体領域候補のサイズも以下のように、対応させる.
サイズの数値を量子化 (実数 -> 整数) する.
そして、座標の量子化を行う.
この 2 つの量子化の際に、情報がある程度失われる.
RoI Pooling
Fast R-CNN では、物体領域候補の量子化が完了した後、全結合への入力サイズを統一するため、
RoI Pooling を行う.
量子化が完了した物体領域候補のサイズを とし、
Pooling 後の結果を の大きさに変更したいとする.
ここで、幅は 6 / 3 = 2 で割り切れるが、
高さは 4 / 3 = 1 で 1 あまるが、それを無視して Max Pooling を行う.
ここでも、情報の損失がある.
参考
- Understanding Region of Interest — (RoI Pooling)