オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Region of Interest Pooling / RoI Pooling

yhayato1320.hatenablog.com

Index

Region of Interest Pooling / RoI

Fast R-CNN で利用される.

yhayato1320.hatenablog.com

SPP と同様に、全結合層への入力を決まったサイズにすることが目的.

SPP を簡略した、1 層の Feature Pyramid を想定.

Fast R-CNN での RoI Pooling

Fast R-CNN では、画像から CNN により特徴マップが生成され、
その後、画像中に提案された物体領域候補を、特徴マップに対応させるといった流れがある.



上の図では、赤の矩形が提案された物体領域候補としている.

特徴マップ上の座標の量子化

では、画像中にて提案されている物体領域候補を、どのようにして特徴マップに結びつけるのか.

ここで、入力画像が、 512\ \times\ 512 とし、変換後の特徴マップの大きさを  16\ \times\ 16 とする.

そして、画像中の物体領域候補のサイズを  200\ \times\ 145 とする.



全体のスケールが  \displaystyle \frac{16}{512}\ =\ \displaystyle \frac{1}{32} になっているから
特徴マップでの物体領域候補のサイズも以下のように、対応させる.



サイズの数値を量子化 (実数 -> 整数) する.



そして、座標の量子化を行う.



この 2 つの量子化の際に、情報がある程度失われる.

RoI Pooling

Fast R-CNN では、物体領域候補の量子化が完了した後、全結合への入力サイズを統一するため、
RoI Pooling を行う.

量子化が完了した物体領域候補のサイズを  4\ \times\ 6 とし、
Pooling 後の結果を  3\ \times\ 3 の大きさに変更したいとする.



ここで、幅は 6 / 3 = 2 で割り切れるが、
高さは 4 / 3 = 1 で 1 あまるが、それを無視して Max Pooling を行う.



ここでも、情報の損失がある.

参考