Index
MDETR
Modulated DETR
DETR #まとめ編
Phrase Grounding
Architecture
DETR に Text Vector を concat.
2 つの Encoder
Text Encoder は、学習済みのモデルを利用する.
Concat
Text と Image の Feature Vector を連結する.
その後、Encoder へ入力される.
DETR への入力
DETR の構造と同様.
Training / Loss
Contrastive Alignment Loss
Object Part
: Object の数
: Object Index
: Object
と比較するTextの集合
: Text Index
Text Part
: Text の数
: Text Index
: Text
と比較するObjectの集合
: Object Index
Total Loss
Box Loss (L1 Loss + GIoU Loss) + Soft-Token Loss + Contrastive Alignment Loss
参考
- MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
- [2021]
- 2 Method
- 2.2 MDETR
- 2.2.1 Architecture
- 2.2.2 Training
- Soft token prediction
- Contrastive alignment
- Combining all the losses
- 2.2 MDETR
- arxiv.org
Web サイト
- MDETRについて
Post
https://t.co/rVnDkUPwxz
— akira (@AkiraTOSEI) August 18, 2021
テキストと画像で学習することにより、物体を示す任意のテキストを使って物体検知が行えるMDETRを提案。DETRをベースに、予測物体とその対応するテキストの位置が一致するように学習させる。"ピンク色の象"など任意のテキストで検知可能。 pic.twitter.com/gMDzzxtrD1