オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Mask R-CNN

yhayato1320.hatenablog.com

Index

Mask R-CNN

Mask R-CNN は Faster R-CNN の拡張.

yhayato1320.hatenablog.com

Mask R-CNN は、画像内の物体を検出すると同時に、インスタンスセグメンテーションのマスクを生成する.

yhayato1320.hatenablog.com

改善点

Faster R-CNN を基に拡張するような形で、改善している.

Mask Branch

Faster R-CNN では、「クラス分類」と「BB の位置」の推定の 2 つの分岐があった.

これに、新しく インスタンスセグメンテーションのための Mask Branch を用意する.

Multi Task Loss

出力が 3 つに増えたので、損失関数も変化する.

 L\ =\ L_{cls}\ +\ L_{box}\ +\ L_{mask}



[tex: L{cls},\ L{box}] は、Faster R-CNN と同様.

Mask Branch の出力は、1 つの物体領域候補に、 K\ \times\ m\ \times\ m の 3 次元の出力となっている.

 K は、クラス分類の分類数、 m\ \times\ m は特徴マップの大きさ



出力に対し、ピクセルごとに、シグモイド関数を適用し、確率化し、
 L_{mask} を平均バイナリクロスエントロピー損失として、定義する.

RoI Align

Faster R-CNN では、Fast R-CNN から導入した RoI Pooling を利用して、 全結合層への入力サイズを統一化していた.

yhayato1320.hatenablog.com

RoI Pooling では、実数から整数に量子化すること、サイズをコントロールしているが、
その際には、ある程度情報が欠落する.

ピクセル単位の予測を行うセグメンテーションのタスクでは、その情報の欠落が致命的になる場合がある.

そこで、その改善として、RoI Align を導入する.

bilinear interpolation / バイリニア補間 を利用して、情報の欠落を防ぐ.

ネットワークアーキテクチャ

参考

  • Mask R-CNN
    • [2017]
    • Abstract
    • 1 Introduction
    • 3 Mask R-CNN
    • arxiv.org

Web サイト