Index
GLIP
物体検出のおけるラベルの表現を豊かにするために、事前学習を導入した.
Natural Language Supervision
画像認識・物体認識のアルゴリズムでは、通常、事前にラベルを固定してから学習を行うが、
生の自然言語を教師にする Natural Language Supervision という考えを導入した CLIP というアルゴリズムがあった.
Phrase Grounding
文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスクである
Phrase Groundingがある.
- Phrase Grounding
Phrase Grounding を物体の種類と場所を特定する物体検出 / Object Detection のタスクに応用させた.
Phrase Grounding と Object Detection の融合
では、どのようなフレームワークにするのか.
入力は、画像とテキスト.
そして、テキストとしての入力は 2 つ.
- ラベル情報
- テキスト
画像から物体の領域が検出され、それぞれの領域の特徴量を抽出する.
入力されたテキストからも、特徴量を抽出する.
そして、それらの特徴量の関連性をベクトルの内積として表現する.
CLIP とは異なり、2 つの Encoder の中間出力に関連を持たせる.
Frame Work
さらにこの仕組みを細かくみていく.
Formulation / 定式化
式に描いてみる.
Object Detection
Object Detection の場合.
Two Stage.
- : 分類器 の重みパラメータ
- : 分類確率
- : クラスの数
- : ラベル
Object Detection + Phrase Grounding
Object Detection に Phrase Grounding を導入した形式で定式化する.
まずは、Class について.
このようなクラスであったら、こう.
次は、処理.
ここまでは、同様.
- : 入力テキスト (ラベル情報)
- : Language Encoder / Transformer とか
- : Embedding された情報
- テキスト (単語 / token) の特徴量
- : 単語数 / token
- : ラベル
- : ラベル
そして、損失を算出.
Deep Fusion
ここまでの定式化では、画像とテキストは別々の Encoder によって処理され、
スコアを計算するために、最後に各の情報が初めて触れ合う.
このようなモデルを Late Fusion Model と呼ぶ.
Vision と Language の情報の共有の精度を上げるために、より良い情報の共有の方法を導入する.
- : レイヤー からの画像 (物体) の中間特徴量
- : レイヤー からのテキスト (フレーズ / token) の中間特徴量
- : レイヤーの数
- X-MHA : Cross-Modality Multi Head Attention
- : text to image で情報を共有
- : image to text で情報を共有
上の場合は、画像から特徴量抽出に DyHead を、テキストからの特徴量抽出に BERT を利用.
学習データセット
- Flickr30K
- VG Caption
実装編
- GLIP #実装編
参考
- Grounded Language-Image Pre-training
- [2021]
- Abstract
- 1 Introduction
- 3 Grounded Language Image Pre-training
- 3.1 Unified Formulation
- 3.2 Language-Aware Deep Fusion
- 3.3 Pre-training with Scalable Semantic-Rich Data
- arxiv.org
- paperswithcode.com
Web サイト
- GLIP: Grounded Language-Image Pre-training