オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Image Caption

Index

Image Caption

画像を入力とし、画像を説明するテキストを出力する.

アルゴリズム

BRNN

  • Deep Visual-Semantic Alignments for Generating Image Descriptions

CPTR / 2021

  • CPTR: Full Transformer Network for Image Captioning

Re-ViLM

  • Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

AEC / Affective Explanation Captioning

実世界の画像に対して、そこから想起される感情と説明文を生成するタスク.

Affection / 2022

  • Affection: Learning Affective Explanations for Real-World Visual Data

参考

Web サイト