オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】CondInst

Index

CondInst

Instance Segmentation における手法の一つ.

諸定義

入力画像  I を定義.

 I\ \in\ R^{H\ \times\ W\ \times 3}


Ground-Truths を定義.

 \{(M_{i},\ c_{i})\}


従来の手法を instance segmentation に適用する際の課題



入力画像に対して、1 つのマスクを予測するだけの semantic segmentaion と異なり、 instance segmentation は、画像内のインスタンスの数に応じて、可変数のマスクを予測する必要がある.

これは、従来の FCN をインスタンス セグメンテーションに適用する場合に課題となる.

この手法の工夫

K 個のインスタンスがある画像に対して、K 個の異なるマスク ヘッドが動的に生成され、 各マスク ヘッドのフィルターにターゲット インスタンスの特性が含まれるというアイデアが中心となっている.

その結果、マスクが入力に適用されると、インスタンスピクセルに対してのみ発火し、インスタンスのマスク予測が生成される.



インスタンス対応のマスク ヘッドを使用して各インスタンスのマスクを予測する.

マスク ヘッドのフィルターはインスタンスごとに異なり、ターゲット インスタンスごとに動的に生成され、条件付けさる.

この手法の狙い



Mask R-CNN (ROI-based method)のように bounding box の情報から、領域の情報を得る.

同様に、CondInst はインスタンスを認識するフィルターを使用してインスタンスを表す.

言い換えると、インスタンスの概念を境界ボックスにエンコードする代わりに、 CondIst はそれをマスク ヘッドのパラメーターに暗黙的にエンコードする.

Network Architecture



FCOS をベースにしている.

Controller Head



Conditional Convolution

参考

  • Conditional convolutions for instance segmentation
    • [2020]
      1. Introduction
      2. 1.1 Related Work
        • Conditional Convolutions
        • Instance Segmentation
      1. Instance Segmentation with CondInst
      2. 2.1 Overall Architecture
      3. 2.2 Network Outputs and Training Targets
        • Classification Head
        • Controller Head
        • Center-ness and Box Heads
    • arxiv.org

Web サイト

  • 論文:Conditional Convolutions for Instance Segmentation