Index
- Index
- Object-Semantics Aligned Pre-training / OSCAR
- Object Tag (Anchor Point)
- Dataset
- Input to Transformer
- Loss
- 参考
Object-Semantics Aligned Pre-training / OSCAR
2020 年に Microsoft と University of Washington から発表された
Vision-Language の Cross (Multi) Modal についての論文.
- Transformer #まとめ編
- マルチモーダルにおける Transformer の手法
- yhayato1320.hatenablog.com
Object-Semantics Aligned Pre-training / OSCAR
Object Tag (Anchor Point)
Vision (画像) representation space と Language (テキスト) representation space の Alignment (関連) を学習するために、Object Tag (Anchor Point) を導入.
Dataset
- Text : 物体名が含まれている文章
- Image : 物体が含まれている画像 / Faster R-CNN で物体領域を特定し、その領域を使用
- Object Tag : (Anchor Point) 画像内に映る物体でありテキスト内に表記される物体名のリスト
Input to Transformer
Word (Text) - Tag - Image の 3つが 入力 Text、Tag は Embedding した結果、画像内の物体が存在する領域
Word (Text) と Tag は BERT で Pre-Training を行う
Loss
Masked Token Loss (MLT)
Object Tag (Anchor Point) と Text における Loss 画像の特徴量からmask された token を推定する
Contrastive Loss
画像とテキストがデータセットのペアであるかどうかを推定する