Index
Mask R-CNN
Mask R-CNN は Faster R-CNN の拡張.
Mask R-CNN は、画像内の物体を検出すると同時に、インスタンスセグメンテーションのマスクを生成する.
改善点
Faster R-CNN を基に拡張するような形で、改善している.
Mask Branch
Faster R-CNN では、「クラス分類」と「BB の位置」の推定の 2 つの分岐があった.
これに、新しく インスタンスセグメンテーションのための Mask Branch を用意する.
Multi Task Loss
出力が 3 つに増えたので、損失関数も変化する.
[tex: L{cls},\ L{box}] は、Faster R-CNN と同様.
Mask Branch の出力は、1 つの物体領域候補に、 の 3 次元の出力となっている.
は、クラス分類の分類数、 は特徴マップの大きさ
出力に対し、ピクセルごとに、シグモイド関数を適用し、確率化し、
を平均バイナリクロスエントロピー損失として、定義する.
RoI Align
Faster R-CNN では、Fast R-CNN から導入した RoI Pooling を利用して、
全結合層への入力サイズを統一化していた.
RoI Pooling では、実数から整数に量子化すること、サイズをコントロールしているが、
その際には、ある程度情報が欠落する.
ピクセル単位の予測を行うセグメンテーションのタスクでは、その情報の欠落が致命的になる場合がある.
そこで、その改善として、RoI Align を導入する.
bilinear interpolation / バイリニア補間 を利用して、情報の欠落を防ぐ.
ネットワークアーキテクチャ
参考
- Mask R-CNN
- [2017]
- Abstract
- 1 Introduction
- 3 Mask R-CNN
- arxiv.org
Web サイト
- Mask R-CNN:ディープラーニングによる一般物体検出・Instance Segmentation手法