オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Visual Question Answering / VQA

Index

Visual Question Answering / VQA

画像 (Visual) と 質問 (Question / Text) を入力として、解答 (Answer / Text) を出力するタスク.

アルゴリズム

  • Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

Dual Attention Networks / DANs / 2016

MMBT / 2019

  • Supervised Multimodal Bitransformers for Classifying Images and Text

  • クロスモーダル事前学習不要のVQAモデル, Multimodal Bitransformer

  • MMBT(MultiModal BiTransformers)の逆伝播について(マルチモーダル深層学習)

Visual Reasoning

ALOE / attention over learned object embeddings / 2020

  • Attention over learned object embeddings enables complex visual reasoning

参考

Web サイト