Index

CondInst

Instance Segmentation における手法の一つ.

入力画像 $I$ を定義.

$I\ \in\ R^{H\ \times\ W\ \times 3}$

Ground-Truths を定義.

$\{(M_{i},\ c_{i})\}$

入力画像に対して、1 つのマスクを予測するだけの semantic segmentaion と異なり、 instance segmentation は、画像内のインスタンスの数に応じて、可変数のマスクを予測する必要がある.

これは、従来の FCN をインスタンスセグメンテーションに適用する場合に課題となる.

K 個のインスタンスがある画像に対して、K 個の異なるマスクヘッドが動的に生成され、各マスクヘッドのフィルターにターゲットインスタンスの特性が含まれるというアイデアが中心となっている.

その結果、マスクが入力に適用されると、インスタンスのピクセルに対してのみ発火し、インスタンスのマスク予測が生成される.

インスタンス対応のマスクヘッドを使用して各インスタンスのマスクを予測する.

マスクヘッドのフィルターはインスタンスごとに異なり、ターゲットインスタンスごとに動的に生成され、条件付けさる.

Mask R-CNN (ROI-based method)のように bounding box の情報から、領域の情報を得る.

同様に、CondInst はインスタンスを認識するフィルターを使用してインスタンスを表す.

言い換えると、インスタンスの概念を境界ボックスにエンコードする代わりに、 CondIst はそれをマスクヘッドのパラメーターに暗黙的にエンコードする.

FCOS をベースにしている.