オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Object-Semantics Aligned Pre-training / OSCAR

Index

Object-Semantics Aligned Pre-training / OSCAR

2020 年に Microsoft と University of Washington から発表された Vision-Language の Cross (Multi) Modal についての論文.

Object-Semantics Aligned Pre-training / OSCAR

Object Tag (Anchor Point)

Vision (画像) representation space と Language (テキスト) representation space の Alignment (関連) を学習するために、Object Tag (Anchor Point) を導入.

Dataset

  1. Text : 物体名が含まれている文章
  2. Image : 物体が含まれている画像 / Faster R-CNN で物体領域を特定し、その領域を使用
  3. Object Tag : (Anchor Point) 画像内に映る物体でありテキスト内に表記される物体名のリスト

Input to Transformer

Word (Text) - Tag - Image の 3つが 入力 Text、Tag は Embedding した結果、画像内の物体が存在する領域

Word (Text) と Tag は BERT で Pre-Training を行う

Loss

Masked Token Loss (MLT)

Object Tag (Anchor Point) と Text における Loss 画像の特徴量からmask された token を推定する

Contrastive Loss

画像とテキストがデータセットのペアであるかどうかを推定する

参考