Index
Phrase Grounding
文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスク.
- マルチモーダル #まとめ編
- Vision-Language
- yhayato1320.hatenablog.com
アルゴリズム
ViLD / 2021
MDETR / 2021
GLIP / 2021
GLIP v2 / 2022
- GLIP v2
Grounding DINO / 2023
- Grounding DINO
文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスク.