Index

Object-Semantics Aligned Pre-training / OSCAR

2020 年に Microsoft と University of Washington から発表された Vision-Language の Cross (Multi) Modal についての論文.

Object-Semantics Aligned Pre-training / OSCAR

Vision (画像) representation space と Language (テキスト) representation space の Alignment (関連) を学習するために、Object Tag (Anchor Point) を導入.

Word (Text) - Tag - Image の 3つが入力 Text、Tag は Embedding した結果、画像内の物体が存在する領域

Word (Text) と Tag は BERT で Pre-Training を行う

Object Tag (Anchor Point) と Text における Loss 画像の特徴量からmask された token を推定する

画像とテキストがデータセットのペアであるかどうかを推定する

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
- [2020 Microsoft]
- arxiv.org