オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Phrase Grounding

Index

Phrase Grounding

文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスク.

アルゴリズム

GLIP / 2021

GLIP v2 / 2022

  • GLIPv2: Unifying Localization and Vision-Language Understanding

参考