オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】タスク一覧 #まとめ編

Index

マルチモーダルなタスク

Vision Language

Text to 3D

Point-E / 2022

  • Point-E: A System for Generating 3D Point Clouds from Complex Prompts

  • OpenAI、テキストから3Dモデルを高速生成するAI「Point-E」をリリース

DreamFusion / 2022

Data2text Generation

Chart-to-Text / 2022

Text to Video

Audio to Video

Talking Face Generation

Text-to-Motion

MDM / 2022

  • Human Motion Diffusion Model

Document Analysis

ドキュメントの見た目の情報と文字の情報から内容を解析する.

StrucTexTv2 / 2023



  • StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training